库名称:transformers
标签:
- 密码子转换器
- 计算生物学
- 机器学习
- 生物信息学
- 合成生物学
许可证:apache-2.0
流水线标签:令牌分类

密码子转换器是密码子优化的终极工具,能将蛋白质序列转化为针对目标生物体优化的DNA序列。无论您是基因工程领域的研究者还是从业者,密码子转换器都提供了一套全面的功能来简化您的工作。通过利用Transformer架构和用户友好的Jupyter笔记本,它降低了密码子优化的复杂性,为您节省时间和精力。
作者
阿迪布瓦法·法拉普尔1,2*,文森特·古雷吉安3*,纪尧姆·J·菲利昂2‡,阿里尔·B·林德纳3‡,阿米尔·潘迪3‡
1 加拿大安大略省多伦多市向量人工智能研究所
2 加拿大多伦多大学士嘉堡分校;生物科学系;安大略省士嘉堡市
3 法国巴黎西岱大学,INSERM U1284,跨学科研究中心,F-75006巴黎
* 这些作者对工作贡献均等。
‡ 通讯作者联系方式:
guillaume.filion@utoronto.ca, ariel.lindner@inserm.fr, amir.pandi@cri-paris.org
使用案例
交互式演示请查看我们的Google Colab笔记本。
安装密码子转换器后,您可以使用:
import torch
from transformers import AutoTokenizer, BigBirdForMaskedLM
from CodonTransformer.CodonPrediction import predict_dna_sequence
from CodonTransformer.CodonJupyter import format_model_output
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("adibvafa/CodonTransformer")
model = BigBirdForMaskedLM.from_pretrained("adibvafa/CodonTransformer").to(device)
protein = "MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGG"
organism = "大肠杆菌通用型"
output = predict_dna_sequence(
protein=protein,
organism=organism,
device=device,
tokenizer=tokenizer,
model=model,
attention_type="original_full",
deterministic=True
)
print(format_model_output(output))
输出结果为:
-----------------------------
| 生物体 |
-----------------------------
大肠杆菌通用型
-----------------------------
| 输入蛋白质 |
-----------------------------
MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGG
-----------------------------
| 处理后的输入 |
-----------------------------
M_UNK A_UNK L_UNK W_UNK M_UNK R_UNK L_UNK L_UNK P_UNK L_UNK L_UNK A_UNK L_UNK L_UNK A_UNK L_UNK W_UNK G_UNK P_UNK D_UNK P_UNK A_UNK A_UNK A_UNK F_UNK V_UNK N_UNK Q_UNK H_UNK L_UNK C_UNK G_UNK S_UNK H_UNK L_UNK V_UNK E_UNK A_UNK L_UNK Y_UNK L_UNK V_UNK C_UNK G_UNK E_UNK R_UNK G_UNK F_UNK F_UNK Y_UNK T_UNK P_UNK K_UNK T_UNK R_UNK R_UNK E_UNK A_UNK E_UNK D_UNK L_UNK Q_UNK V_UNK G_UNK Q_UNK V_UNK E_UNK L_UNK G_UNK G_UNK __UNK
-----------------------------
| 预测DNA序列 |
-----------------------------
ATGGCTTTATGGATGCGTCTGCTGCCGCTGCTGGCGCTGCTGGCGCTGTGGGGCCCGGACCCGGCGGCGGCGTTTGTGAATCAGCACCTGTGCGGCAGCCACCTGGTGGAAGCGCTGTATCTGGTGTGCGGTGAGCGCGGCTTCTTCTACACGCCCAAAACCCGCCGCGAAGCGGAAGATCTGCAGGTGGGCCAGGTGGAGCTGGGCGGCTAA
附加资源
-
项目网站
https://adibvafa.github.io/CodonTransformer/
-
GitHub仓库
https://github.com/Adibvafa/CodonTransformer
-
Google Colab演示
https://adibvafa.github.io/CodonTransformer/GoogleColab
-
PyPI包
https://pypi.org/project/CodonTransformer/
-
论文
https://www.nature.com/articles/s41467-025-58588-7
引用
@article{Fallahpour_Gureghian_Filion_Lindner_Pandi_2025,
title={密码子转换器:使用上下文感知神经网络的多物种密码子优化器},
volume={16},
ISSN={2041-1723},
url={https://www.nature.com/articles/s41467-025-58588-7},
DOI={10.1038/s41467-025-58588-7},
number={1},
journal={自然通讯},
author={法拉普尔, 阿迪布瓦法 and 古雷吉安, 文森特 and 菲利昂, 纪尧姆·J and 林德纳, 阿里尔·B and 潘迪, 阿米尔},
year={2025},
month=四月,
pages={3205},
language={中文}
}