A

Agro Nucleotide Transformer 1b

由 InstaDeepAI 开发
AgroNT是一个基于可食用植物基因组训练的DNA语言模型,能够学习核苷酸序列的通用表示。
下载量 4,869
发布时间 : 8/1/2023
模型介绍
内容详情
替代品

模型简介

AgroNT是一个主要基于可食用植物基因组训练的DNA语言模型,采用Transformer架构,通过掩码语言建模目标学习核苷酸序列的通用表示。

模型特点

大规模基因组训练
模型使用来自48种不同植物物种的高可用性基因型数据进行训练,覆盖约1050万条基因组序列。
6-mer标记化
使用非重叠6-mer标记器将基因组核苷酸序列转换为标记,词汇表包含4096种可能的6-mer组合。
长上下文窗口
模型支持1024个标记的上下文窗口,对应约6144个碱基对。
高效预训练
预训练使用150万标记的有效批大小,共进行31.5万次更新步骤,总计训练4725亿标记。

模型能力

基因组序列表示学习
掩码核苷酸预测
基因组序列嵌入生成

使用案例

基因组学研究
植物基因组分析
利用模型学习植物基因组的通用表示,辅助基因组分析和比较。
基因组序列预测
预测被掩蔽的基因组序列部分,辅助基因组测序和注释。