transcriptome-iseeek开源基因分析模型 - 免费探索整合超大规模单细胞转录组

首页

Transcriptome Iseeek

由 TJMUCH 开发

一种通过探索基因排序整合超大规模单细胞转录组的通用方法

分子模型

Transformers

#单细胞转录组分析 #基因排序整合 #BERT特征提取

下载量 21

发布时间 : 3/2/2022

模型简介

该模型基于BERT架构，专门用于单细胞转录组数据分析，能够从基因表达数据中提取特征并进行细胞类型分类。

模型特点

基因序列处理能力

专门设计用于处理基因序列数据，能够理解基因排序模式

单细胞分析优化

针对单细胞转录组数据特点进行了优化，适合处理高维度稀疏数据

高效特征提取

能够从原始基因表达数据中提取有意义的细胞特征表示

模型能力

单细胞转录组数据分析

基因表达特征提取

细胞类型分类

降维可视化

使用案例

生物医学研究

免疫细胞分类

使用PBMC(外周血单个核细胞)数据进行细胞类型分类

能够有效区分不同免疫细胞类型

单细胞图谱构建

整合大规模单细胞数据构建细胞图谱

有助于发现新的细胞亚群

🚀 iSEEEK

iSEEEK是一种通用方法，通过探索基因排名来整合超大规模的单细胞转录组数据，为单细胞分析提供了有效的解决方案。

🚀 快速开始

单细胞分析简易流程

以下是一个简单的单细胞分析流程示例代码：

import torch
import gzip
import re
from tqdm import tqdm
import numpy as np
import scanpy as sc
from torch.utils.data import DataLoader, Dataset
from transformers import PreTrainedTokenizerFast, BertForMaskedLM 

class LineDataset(Dataset):
    def __init__(self, lines):
        self.lines = lines
        self.regex = re.compile(r'\-|\.')
    def __getitem__(self, i):
        return self.regex.sub('_', self.lines[i])
    def __len__(self):
        return len(self.lines)

device = "cuda" if torch.cuda.is_available() else "cpu" 
torch.set_num_threads(2)

tokenizer = PreTrainedTokenizerFast.from_pretrained("TJMUCH/transcriptome-iseeek")
model = BertForMaskedLM.from_pretrained("TJMUCH/transcriptome-iseeek").bert
model = model.to(device)
model.eval()


## Data desposited in https://huggingface.co/TJMUCH/transcriptome-iseeek/tree/main
lines = [s.strip().decode() for s in gzip.open("pbmc_ranking.txt.gz")]
labels = [s.strip().decode() for s in gzip.open("pbmc_label.txt.gz")]
labels = np.asarray(labels)


ds = LineDataset(lines)
dl = DataLoader(ds, batch_size=80)

features = []

for a in tqdm(dl, total=len(dl)):
    batch = tokenizer(a, max_length=128, truncation=True, 
               padding=True, return_tensors="pt")

    for k, v in batch.items():
        batch[k] = v.to(device)

    with torch.no_grad():
        out = model(**batch)

    f = out.last_hidden_state[:,0,:]
    features.extend(f.tolist())

features = np.stack(features)

adata = sc.AnnData(features)
adata.obs['celltype'] = labels
adata.obs.celltype = adata.obs.celltype.astype("category")
sc.pp.neighbors(adata, use_rep='X')
sc.tl.umap(adata)
sc.tl.leiden(adata)
sc.pl.umap(adata, color=['celltype','leiden'],save= "UMAP")

提取标记表示

以下是提取标记表示的示例代码：


cell_counts = len(lines)
x = np.zeros((cell_counts, len(tokenizer)), dtype=np.float16)

for a in tqdm(dl, total=len(dl)):
    batch = tokenizer(a, max_length=128, truncation=True,
               padding=True, return_tensors="pt")

    for k, v in batch.items():
        batch[k] = v.to(device)

    with torch.no_grad():
        out = model(**batch)

    eos_idxs = batch.attention_mask.sum(dim=1) - 1
    f = out.last_hidden_state
    batch_size = f.shape[0]
    input_ids = batch.input_ids

    for i in range(batch_size):
        ##genes = tokenizer.batch_decode(input_ids[i])
        token_norms = [f[i][j].norm().item() for j in range(1, eos_idxs[i])]
        idxs = input_ids[i].tolist()[1:eos_idxs[i]]
        x[counter, idxs] = token_norms
        counter = counter + 1