G

Gena Lm Bert Large T2t

由 AIRI-Institute 开发
GENA-LM 是一个面向长DNA序列的开源基础模型家族,基于人类DNA序列训练的Transformer掩码语言模型。
下载量 386
发布时间 : 4/2/2023
模型介绍
内容详情
替代品

模型简介

GENA-LM模型是基于人类DNA序列训练的Transformer掩码语言模型,专门设计用于处理长DNA序列。

模型特点

长序列处理能力
输入序列长度约4500个核苷酸(512个BPE标记),相比DNABERT的512个核苷酸有显著提升
BPE分词
采用BPE分词而非k-mer分词,提高了模型处理效率
T2T基因组预训练
基于T2T人类基因组组装进行预训练,而非GRCh38.p13版本
预训练数据增强
使用1000基因组计划SNPs(gnomAD数据集)采样突变进行数据增强

模型能力

DNA序列分析
启动子预测
剪接位点预测
基因组序列注释

使用案例

基因组学研究
300bp启动子预测
预测300bp长度的DNA启动子区域
具体性能指标见论文
2000bp启动子预测
预测2000bp长度的DNA启动子区域
具体性能指标见论文
剪接位点预测
预测DNA序列中的剪接位点
具体性能指标见论文
基因组序列注释工具
GENA-Web应用
用于GENA-Web基因组序列注释工具