库名称:transformers
许可证:cc-by-nc-sa-4.0
任务标签:特征提取
标签:
- 螺旋
- RNA
- 变换器
- 序列
- 生物学
- mRNA
- 基因组学
Helix-mRNA-v0
Helix-mRNA是一种基于混合状态空间和变换器的模型,结合了Mamba2状态空间架构的高效序列处理能力和变换器注意力机制的上下文理解能力,实现了两种方法的优势互补。这些特性使其特别适合研究全长转录本、剪接变体和复杂的mRNA结构元件。
我们通过将每个核苷酸(A、C、U、G)和模糊碱基(N)映射为唯一的整数,实现了单核苷酸分辨率的mRNA序列标记化。序列中还加入了一个特殊字符E,表示每个密码子的起始。这种细粒度方法最大限度地提高了模型从序列中提取模式的能力。与将核苷酸分组或使用k-mer方法的粗粒度标记化不同,我们的单核苷酸分辨率保留了mRNA分子的完整序列信息。这种简单而有效的编码方案确保了预处理阶段不会丢失任何信息,使下游模型能够直接从原始序列组成中学习。
Helix-mRNA与Transformer HELM、Transformer XE和CodonBERT的基准对比。
更多详情请参阅我们的论文!
Helical
安装包
通过pip运行以下命令安装Helical包:
pip install --upgrade helical
生成嵌入
from helical.models.helix_mrna import HelixmRNA, HelixmRNAConfig
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
input_sequences = ["EACU"*20, "EAUG"*20, "EAUG"*20, "EACU"*20, "EAUU"*20]
helix_mrna_config = HelixmRNAConfig(batch_size=5, device=device, max_length=100)
helix_mrna = HelixmRNA(configurer=helix_mrna_config)
processed_input_data = helix_mrna.process_data(input_sequences)
embeddings = helix_mrna.get_embeddings(processed_input_data)
微调
分类微调示例:
from helical.models.helix_mrna import HelixmRNA, HelixmRNAConfig
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
input_sequences = ["EACU"*20, "EAUG"*20, "EAUG"*20, "EACU"*20, "EAUU"*20]
labels = [0, 2, 2, 0, 1]
helixr_config = HelixmRNAConfig(batch_size=5, device=device, max_length=100)
helixr_fine_tune = HelixmRNAFineTuningModel(helix_mrna_config=helixr_config, fine_tuning_head="classification", output_size=3)
train_dataset = helixr_fine_tune.process_data(input_sequences)
helixr_fine_tune.train(train_dataset=train_dataset, train_labels=labels)
outputs = helixr_fine_tune.get_outputs(train_dataset)
引用论文和包
@misc{wood2025helixmrnahybridfoundationmodel,
title={Helix-mRNA: 用于全长mRNA治疗的混合基础模型},
author={Matthew Wood and Mathieu Klop and Maxime Allard},
year={2025},
eprint={2502.13785},
archivePrefix={arXiv},
primaryClass={q-bio.GN},
url={https://arxiv.org/abs/2502.13785},
}
@software{allard_2024_13135902,
author = {Helical团队},
title = {helicalAI/helical: v0.0.1-alpha10},
month = 11月,
year = 2024,
publisher = {Zenodo},
version = {0.0.1a10},
doi = {10.5281/zenodo.13135902},
url = {https://doi.org/10.5281/zenodo.13135902}
}