Geneformer开源模型 - 可基于转录组数据进行网络生物学预测

首页

Geneformer

由 ctheodoris 开发

基于大规模单细胞转录组语料库预训练的Transformer模型，用于网络生物学预测

分子模型

Transformers

开源协议:Apache-2.0 #单细胞转录组分析 #基因网络预测 #零样本学习

下载量 8,365

发布时间 : 3/12/2022

模型简介

Geneformer是通过大规模单细胞转录组预训练的基础Transformer模型，能够在网络生物学数据有限的场景下进行上下文感知预测，支持零样本学习和微调应用。

模型特点

上下文感知预测

通过注意力机制捕捉基因间的网络层级结构，实现上下文相关的生物学预测

非参数化表征

采用基因排序值编码方式，增强对技术噪音的鲁棒性并突出关键基因

多规模模型

提供6层到20层的不同规模预训练模型，适应不同计算需求

持续学习能力

支持通过额外数据（如癌症转录组）进行领域特异性调优

模型能力

单细胞转录组分词处理

虚拟扰动分析

基因网络动态建模

细胞状态分类

疾病靶点发现

批次效应校正

使用案例

基础研究

转录因子发现

通过零样本虚拟扰动识别心肌细胞新转录因子

实验验证对收缩功能至关重要

染色质动态分析

预测双价标记启动子的表观遗传状态

临床研究

疾病治疗靶点发现

基于有限患者数据提出心肌病靶点

在iPSC疾病模型中显著改善心肌细胞收缩能力

癌症特异性分析

通过癌症调优版识别肿瘤特异性网络变化

🚀 Geneformer

Geneformer是一个基于Transformer的基础模型，它在大规模单细胞转录组语料库上进行预训练，能够在网络生物学中数据有限的情况下进行上下文感知预测，为相关研究提供有力支持。

🚀 快速开始

Geneformer是一个在大规模单细胞转录组语料库上预训练的基础Transformer模型，可在网络生物学数据有限的环境中实现上下文感知预测。

有关2021年6月在约3000万个转录组上训练的原始模型以及我们的计算机模拟扰动、细胞和基因分类策略的初始报告的详细信息，请参阅我们的论文。
有关2024年4月在约9500万个转录组上训练的扩展模型以及我们的持续学习、多任务学习和量化策略的详细信息，请参阅我们的论文。
有关文档，请参阅geneformer.readthedocs.io。

✨ 主要特性

大规模预训练：在包含广泛人类组织的大规模单细胞转录组语料库上进行预训练。
上下文感知预测：能够在数据有限的网络生物学环境中进行上下文感知预测。
多种应用场景：支持零样本学习和微调，可应用于染色质和网络动力学相关的下游任务。

📦 安装指南

除了预训练模型外，这里还包含用于单细胞转录组数据的分词和整理、模型预训练、模型微调、提取和绘制细胞嵌入以及使用预训练或微调模型进行计算机模拟扰动的函数。安装步骤如下（约20秒）：

# 确保你已经安装了git-lfs (https://git-lfs.com)
git lfs install
git clone https://huggingface.co/ctheodoris/Geneformer
cd Geneformer
pip install .

有关使用方法，请参阅示例，包括：

转录组分词
预训练
超参数调整
微调
提取和绘制细胞嵌入
计算机模拟扰动

请注意，微调示例通常具有通用性，输入数据集和标签将根据下游任务而有所不同。论文中展示的一些下游任务的示例输入文件位于数据集仓库的example_input_files目录中，但这些仅代表少数示例微调应用。

请注意，高效使用Geneformer需要GPU资源。此外，我们强烈建议为每个下游微调应用调整超参数，因为这可以显著提高下游任务的预测潜力（例如，最大学习率、学习计划、冻结层数等）。

📚 详细文档

模型描述

Geneformer是一个在大规模单细胞转录组语料库上预训练的基础Transformer模型，该语料库代表了广泛的人类组织。Geneformer最初于2021年6月在Genecorpus - 30M上进行预训练，该语料库包含约3000万个单细胞转录组。为便于解释，我们排除了具有高突变负担的细胞（例如恶性细胞和永生化细胞系），因为这些细胞可能导致实质性的网络重连，而无需伴随基因组测序。然后，在2024年4月，Geneformer在约9500万个非癌转录组上进行预训练，随后在约1400万个癌转录组上进行持续学习，以得到癌症领域调优的模型。

每个单细胞的转录组以排名值编码的形式呈现给模型，其中基因根据其在该细胞中的表达进行排名，并通过其在整个Genecorpus - 30M中的表达进行缩放。排名值编码提供了该细胞转录组的非参数表示，并利用了预训练语料库中每个基因表达的大量观察结果，以优先考虑区分细胞状态的基因。具体而言，这种方法会通过将普遍高表达的管家基因缩放到较低排名来降低其优先级。相反，像转录因子这样的基因，当它们表达时可能表达量较低，但能高度区分细胞状态，将在编码中移动到较高排名。此外，这种基于排名的方法可能对技术伪影更具鲁棒性，这些伪影可能会系统性地影响绝对转录计数的值，而每个细胞内基因的整体相对排名保持更稳定。

每个单细胞转录组的排名值编码然后通过N层Transformer编码器单元，其中N根据模型大小而变化。预训练使用掩码学习目标完成，其中每个转录组中15%的基因被掩码，模型被训练使用其余未掩码基因的上下文来预测在该特定细胞状态下每个掩码位置应该是哪个基因。这种方法的一个主要优点是它完全是自监督的，并且可以在完全未标记的数据上完成，这允许包含大量的训练数据，而不受限于带有伴随标签的样本。

我们在我们的论文中详细介绍了应用和结果。

在预训练期间，Geneformer获得了对网络动力学的基本理解，以完全自监督的方式在模型的注意力权重中编码网络层次结构。通过零样本学习和使用有限的特定任务数据进行微调，Geneformer在与染色质和网络动力学相关的各种下游任务中持续提高了预测准确性。使用零样本学习的计算机模拟扰动在心肌细胞中识别出一种新的转录因子，我们通过实验验证了该转录因子对心肌细胞产生收缩力的能力至关重要。使用有限患者数据的计算机模拟治疗揭示了心肌病的候选治疗靶点，我们通过实验验证了这些靶点在该疾病的诱导多能干细胞（iPSC）模型中显著提高了心肌细胞产生收缩力的能力。总体而言，Geneformer代表了一个在大规模人类单细胞转录组语料库上预训练的基础深度学习模型，以获得对基因网络动力学的基本理解，现在可以将其推广到大量下游任务中，以加速关键网络调节因子和候选治疗靶点的发现。

该仓库包含以下预训练模型：

L = 层数 M = 用于预训练的细胞数百万个 i = 输入大小 (预训练日期)

GF - 6L - 30M - i2048 (2021年6月)
GF - 12L - 30M - i2048 (2021年6月)
GF - 12L - 95M - i4096 (2024年4月)
GF - 20L - 95M - i4096 (2024年4月)

仓库主目录中的当前默认模型是GF - 12L - 95M - i4096。

该仓库还在fine_tuned_models目录中包含微调模型，以及在约1400万个癌细胞上进行持续学习后的癌症调优模型GF - 12L - 95M - i4096_CLcancer。

应用

预训练的Geneformer模型可直接用于零样本学习，例如计算机模拟扰动分析，或通过针对相关下游任务进行微调，如基因或细胞状态分类。

我们的论文中展示的示例应用包括：

微调：

转录因子剂量敏感性
染色质动力学（双价标记启动子）
转录因子调节范围
基因网络中心性
转录因子靶点
细胞类型注释
批次整合
跨分化的细胞状态分类
疾病分类
计算机模拟扰动以确定疾病驱动基因
计算机模拟治疗以确定候选治疗靶点

零样本学习：

批次整合
基因上下文特异性
计算机模拟重编程
计算机模拟分化
计算机模拟扰动以确定对细胞状态的影响
计算机模拟扰动以确定转录因子靶点
计算机模拟扰动以确定转录因子协同作用

📄 许可证

本项目采用Apache - 2.0许可证。

📚 引用

C V Theodoris#, L Xiao, A Chopra, M D Chaffin, Z R Al Sayed, M C Hill, H Mantineo, E Brydon, Z Zeng, X S Liu, P T Ellinor#. Transfer learning enables predictions in network biology. Nature, 2023年5月31日。(#共同通讯作者)
H Chen*, M S Venkatesh*, J Gomez Ortega, S V Mahesh, T Nandi, R Madduri, K Pelka†, C V Theodoris†#. Quantized multi - task learning for context - specific representations of gene network dynamics. bioRxiv, 2024年8月19日。(*共同第一作者，†共同资深作者，#通讯作者)