Isoformer开源多模态生物序列模型 - 免费处理DNA、RNA等序列并预测基因表达

首页

Isoformer

由 isoformer-anonymous 开发

Isoformer 是一个多模态生物序列模型，能够处理DNA、RNA和蛋白质序列，并预测基因表达。

蛋白质模型

Transformers

#多序列嵌入 #基因表达预测 #生物序列分析

下载量 21

发布时间 : 5/22/2024

模型简介

该模型专注于生物序列分析，能够同时处理DNA、RNA和蛋白质序列，并提供基因表达预测和序列嵌入表示。

模型特点

多模态序列处理

能够同时处理DNA、RNA和蛋白质三种生物序列

基因表达预测

可以直接预测基因表达水平

序列嵌入表示

为输入序列生成有意义的嵌入表示

模型能力

DNA序列分析

RNA序列分析

蛋白质序列分析

基因表达预测

序列嵌入生成

使用案例

基因组学研究

基因表达预测

预测特定DNA序列对应的基因表达水平

生物信息学

序列特征提取

获取DNA/RNA/蛋白质序列的嵌入表示用于下游任务

🚀 序列嵌入与基因表达预测代码片段

此代码片段可根据给定的DNA、RNA和蛋白质序列来获取嵌入向量和基因表达预测结果。

🚀 快速开始

以下是使用代码获取序列嵌入和基因表达预测的示例：

from transformers import AutoTokenizer, AutoModelForMaskedLM
import numpy as np
import torch

# Import the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained("isoformer-anonymous/Isoformer", trust_remote_code=True)
model = AutoModelForMaskedLM.from_pretrained("isoformer-anonymous/Isoformer",trust_remote_code=True)

protein_sequences = ["RSRSRSRSRSRSRSRSRSRSRL" * 9]
rna_sequences = ["ATTCCGGTTTTCA" * 9]
sequence_length = 196_608
rng = np.random.default_rng(seed=0)
dna_sequences = ["".join(rng.choice(list("ATCGN"), size=(sequence_length,)))]

torch_tokens = tokenizer(
    dna_input=dna_sequences, rna_input=rna_sequences, protein_input=protein_sequences
)
dna_torch_tokens = torch.tensor(torch_tokens[0]["input_ids"])
rna_torch_tokens = torch.tensor(torch_tokens[1]["input_ids"])
protein_torch_tokens = torch.tensor(torch_tokens[2]["input_ids"])

torch_output = model.forward(
    tensor_dna=dna_torch_tokens,
    tensor_rna=rna_torch_tokens,
    tensor_protein=protein_torch_tokens,
    attention_mask_rna=rna_torch_tokens != 1,
    attention_mask_protein=protein_torch_tokens != 1,
)

print(f"Gene expression predictions: {torch_output['gene_expression_predictions']}")
print(f"Final DNA embedding: {torch_output['final_dna_embeddings']}")

💻 使用示例

基础用法

# Import the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained("isoformer-anonymous/Isoformer", trust_remote_code=True)
model = AutoModelForMaskedLM.from_pretrained("isoformer-anonymous/Isoformer",trust_remote_code=True)

protein_sequences = ["RSRSRSRSRSRSRSRSRSRSRL" * 9]
rna_sequences = ["ATTCCGGTTTTCA" * 9]
sequence_length = 196_608
rng = np.random.default_rng(seed=0)
dna_sequences = ["".join(rng.choice(list("ATCGN"), size=(sequence_length,)))]

torch_tokens = tokenizer(
    dna_input=dna_sequences, rna_input=rna_sequences, protein_input=protein_sequences
)
dna_torch_tokens = torch.tensor(torch_tokens[0]["input_ids"])
rna_torch_tokens = torch.tensor(torch_tokens[1]["input_ids"])
protein_torch_tokens = torch.tensor(torch_tokens[2]["input_ids"])

torch_output = model.forward(
    tensor_dna=dna_torch_tokens,
    tensor_rna=rna_torch_tokens,
    tensor_protein=protein_torch_tokens,
    attention_mask_rna=rna_torch_tokens != 1,
    attention_mask_protein=protein_torch_tokens != 1,
)

print(f"Gene expression predictions: {torch_output['gene_expression_predictions']}")
print(f"Final DNA embedding: {torch_output['final_dna_embeddings']}")