P

Prot Bert Bfd

由 Rostlab 开发
基于Bert架构的蛋白质序列预训练模型,通过自监督学习从21亿蛋白质序列中提取生物物理特征
下载量 30.60k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型采用掩码语言建模目标在海量蛋白质序列上预训练,可捕捉决定蛋白质形态的关键生物物理特性,支持蛋白质特征提取和下游任务微调

模型特点

大规模预训练
在包含21亿蛋白质序列的BFD数据集上预训练,学习蛋白质序列的深层表示
生物物理特性捕捉
模型嵌入能够自动捕捉决定蛋白质形态的关键生物物理特性
双重序列处理
支持512和2048两种序列长度处理模式,适应不同规模蛋白质分析需求

模型能力

蛋白质序列特征提取
蛋白质掩码氨基酸预测
蛋白质下游任务微调

使用案例

蛋白质结构预测
二级结构预测
预测蛋白质的3态或8态二级结构
在CASP12数据集上达到76%准确率(3态)
蛋白质功能分析
亚细胞定位预测
预测蛋白质在细胞内的定位位置
DeepLoc数据集上达到78%准确率
膜蛋白识别
识别蛋白质是否属于膜蛋白
DeepLoc数据集上达到91%准确率