N

Nucleotide Transformer V2 50m 3mer Multi Species

由 InstaDeepAI 开发
基于850个物种基因组预训练的DNA序列基础语言模型,专注于蛋白质任务预测
下载量 33
发布时间 : 5/8/2024

模型简介

该模型通过整合多物种基因组数据(含3200多个人类基因组和850个多样化物种),提供高精度的分子表型预测能力,特别针对蛋白质下游任务优化

模型特点

多物种基因组整合
预训练数据涵盖850个物种(包括模式和非模式生物),突破单一参考基因组的限制
3mer分词优化
采用3mer分词策略提升细粒度蛋白质预测能力,词汇量达4105
增强型架构设计
使用旋转位置编码替代传统学习式编码,并引入门控线性单元提升模型表现
大规模预训练
基于1740亿核苷酸(290亿词元)训练,采用100万词元的大规模批处理

模型能力

DNA序列嵌入生成
掩码核苷酸预测
蛋白质功能推断
基因组特征提取

使用案例

基因组学研究
保守序列分析
通过跨物种序列比对识别进化保守区域
可检测到传统方法难以发现的远缘物种同源序列
蛋白质编码区预测
基于DNA序列预测潜在蛋白质编码区域
在InstaDeepAI/true-cds-protein-tasks数据集上表现优异
生物医学应用
疾病相关变异检测
识别可能导致蛋白质功能异常的DNA变异
对非编码区变异的预测灵敏度显著提升
AIbase
智启未来,您的人工智能解决方案智库
简体中文