D

Distilprotbert

由 yarongef 开发
ProtBert-UniRef100模型的蒸馏版本,用于蛋白质特征提取和下游任务微调
下载量 1,965
发布时间 : 3/30/2022
模型介绍
内容详情
替代品

模型简介

DistilProtBert是一个蒸馏蛋白质语言模型,通过掩码语言建模目标进行预训练,适用于大写字母的氨基酸序列。

模型特点

蒸馏模型
从ProtBert-UniRef100模型蒸馏而来,参数量减少但保持高性能
高效预训练
使用交叉熵、余弦师生损失和MLM目标进行预训练
大写字母氨基酸支持
专门针对大写字母的氨基酸序列优化

模型能力

蛋白质特征提取
蛋白质序列分类
蛋白质结构预测

使用案例

生物信息学
二级结构预测
预测蛋白质的二级结构(3态)
在CASP12、TS115和CB513数据集上分别达到72、81和79的准确率
膜蛋白预测
预测蛋白质是否为膜蛋白
在DeepLoc数据集上达到86的准确率
蛋白质真实性检测
区分真实蛋白质与其随机重排版本
在单重排、双重排和三重排任务中AUC分别达到0.92、0.91和0.87