许可证:mit
数据集:
示例输入:
- 文本:'C T R P N N N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C'
示例标题:'V3'
- 文本:'M E P V D P R L E P W K H P G S Q P K T A C T N C Y C K K C C F H C Q V C F I T K A L G I S Y G R K K R R Q R R R A H Q N S Q T H Q A S L S K Q P T S Q P R G D P T G P K E S K K K V E R E T E T D P F D'
示例标题:'Tat'
- 文本:'P Q I T L W Q R P L V T I K I G G Q L K E A L L D T G A D D T V L E E M N L P G R W K P K M I G G I G G F I K V R Q Y D Q I L I E I C G H K A I G T V L V G P T P V N I I G R N L L T Q I G C T L N F'
示例标题:'PR'
HIV_BERT模型
目录
概述
HIV-BERT模型是基于ProtBert-BFD模型针对HIV相关任务优化的改进版本。该模型使用来自洛斯阿拉莫斯HIV序列数据库的完整病毒基因组进行微调。由于原始BFD数据库包含的病毒蛋白极少,这种预训练对于HIV相关任务至关重要,使其成为迁移学习任务更优的基础模型。该模型及相关HIV预测任务已发表(链接)。
模型描述
与原始ProtBert-BFD模型类似,本模型将每个氨基酸编码为独立标记。采用掩码语言建模训练方式:随机遮蔽部分标记并预测被遮蔽内容。训练使用damlab/hiv-flt数据集,以256个氨基酸为片段长度,遮蔽率为15%。
预期用途与限制
作为掩码语言模型,本工具可通过遮蔽预测技术推断预期突变,适用于识别高频突变序列、测序伪影等场景。作为BERT模型,也可作为迁移学习基础,用于开发HIV特异性分类任务。
使用方法
作为BERT风格掩码语言模型,可预测被遮蔽位置最可能出现的氨基酸:
from transformers import pipeline
unmasker = pipeline("fill-mask", model="damlab/HIV_FLT")
unmasker(f"C T R P N [MASK] N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C")
[
{
"得分": 0.9581968188285828,
"标记": 17,
"标记文本": "N",
"序列": "C T R P N N N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
},
{
"得分": 0.022986575961112976,
"标记": 12,
"标记文本": "K",
"序列": "C T R P N K N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
},
{
"得分": 0.003997281193733215,
"标记": 14,
"标记文本": "D",
"序列": "C T R P N D N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
},
{
"得分": 0.003636382520198822,
"标记": 15,
"标记文本": "T",
"序列": "C T R P N T N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
},
{
"得分": 0.002701344434171915,
"标记": 10,
"标记文本": "S",
"序列": "C T R P N S N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
}
]
训练数据
使用damlab/HIV_FLT数据集对原始rostlab/Prot-bert-bfd进行微调。该数据集包含1790条全球HIV完整基因组,翻译后约含390万个氨基酸标记。
训练流程
预处理
与rostlab/Prot-bert-bfd模型一致:将稀有氨基酸U/Z/O/B转换为X,氨基酸间添加空格。所有序列拼接后切分为256标记的片段,保留20%作为验证集。
训练
采用HuggingFace训练模块,使用遮蔽率15%的MaskedLM数据加载器。学习率设为E-5,5万步预热,采用带重启的余弦学习率调度,持续训练直至验证集损失连续3轮未提升。
BibTeX条目与引用信息
[需补充更多信息]