P

Prot Bert

由 Rostlab 开发
基于BERT架构的蛋白质序列预训练模型,通过自监督学习捕捉蛋白质序列的生物物理特性
下载量 276.10k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

ProtBert是基于蛋白质序列使用掩码语言建模(MLM)目标进行预训练的模型,能够提取蛋白质特征或用于下游任务微调,学习蛋白质序列中的生物物理特性

模型特点

蛋白质专用预训练
专门针对蛋白质序列优化,将每条序列视为独立文档处理
生物物理特性捕捉
模型嵌入能够反映决定蛋白质空间构象的重要特性
大规模训练数据
在Uniref100的2.17亿条蛋白质序列上预训练

模型能力

蛋白质序列特征提取
蛋白质序列掩码预测
蛋白质结构相关任务微调

使用案例

蛋白质结构预测
二级结构预测
预测蛋白质的3态或8态二级结构
在CASP12上达到75%准确率(3态)
蛋白质功能分析
亚细胞定位预测
预测蛋白质在细胞中的定位位置
在DeepLoc数据集上达到79%准确率