N

Nucleotide Transformer 2.5b Multi Species

由 InstaDeepAI 开发
基于850个物种基因组预训练的DNA序列分析模型,支持分子表型预测等任务
下载量 2,714
发布时间 : 4/5/2023
模型介绍
内容详情
替代品

模型简介

该模型是专为基因组学设计的大型语言模型,通过整合多物种DNA序列数据,能够准确预测分子表型。相比传统方法,具有更强的泛化能力和准确性。

模型特点

多物种基因组整合
整合了850个物种的基因组数据,包括模式和非模式生物
大规模预训练
在3000亿词元数据上训练,覆盖1740亿个核苷酸
高效分词策略
采用6-mer优先的分词方法,词表大小4105

模型能力

DNA序列分析
分子表型预测
基因组特征提取
掩码核苷酸预测

使用案例

基因组学研究
调控元件识别
识别DNA序列中的功能调控区域
相比现有方法提供更准确的预测
跨物种比较分析
分析不同物种间的基因组相似性和差异性
生物医学研究
疾病相关变异预测
预测DNA序列变异对疾病的影响