inference: false
抗体生成模型卡片(基于ProGen2架构)
模型详情
- 模型名称:抗体生成器
- 版本:1.0
- 发布日期:2023年12月15日
- 开发团队:Joseph Roberts、David Noble、Rahul Suresh、Neel Patel
- 模型类型:基于ProGen2架构的蛋白质生成模型
- 许可协议:Apache 2.0
- 代码仓库:docker蛋白质生成器、抗体生成交互应用
- 基准模型文献:ProGen2论文
模型概述
抗体生成器是基于Salesforce开发的ProGen2模型构建的专用治疗性抗体生成工具。作为2020年原始ProGen模型的升级版,ProGen2在2.8亿条蛋白质序列上进行了预训练,参数量高达64亿,在生成新型可行蛋白质序列和预测蛋白质适应性方面表现出顶尖性能。
使用场景
- 主要用途:为免疫治疗、疫苗开发和医学研究生成治疗性抗体序列
- 目标用户:生物信息学、分子生物学等领域的研究人员
训练数据
- 基准数据:ProGen2使用来自基因组、宏基因组和免疫组库数据库的2.8亿条蛋白质序列进行训练
- 微调数据:采用包含约5000个实验解析的抗体-抗原晶体结构的结构抗体数据库进行微调
模型变体
模型命名规则:progen2_<尺寸><微调类型><提示类型>
-
尺寸参数:
- Small:1.51亿参数
- Medium:7.64亿参数
- Large:27亿参数
- xLarge:64亿参数
-
微调类型:
- 无微调
- 基础微调:使用下述超参数对5000个抗体-抗原结构进行微调
- 冻结层微调:仅解冻最后3层网络进行微调
-
提示类型:
- 提示工程:采用特定提示生成抗体序列
- 零样本:无提示输入
超参数配置
- 批量大小:40
- 训练轮次:10
- 学习率:0.00001
评估与性能
评估工具:
- ANARCI:通过抗体编号分类系统分析生成序列的结构合理性 ANARCI工具
- 多样性评分:计算生成序列间的相似度分布,重点评估HCDR3区域变异程度
性能图示:


伦理考量
- 使用限制:生成抗体需经实验验证方可投入应用
- 潜在风险:需防范恶意使用生成序列
使用指南
完整API文档见代码仓库
示例代码
from models.progen.modeling_progen import ProGenForCausalLM
import torch
from tokenizers import Tokenizer
model = ProGenForCausalLM.from_pretrained('AntibodyGeneration/fine-tuned-progen2-small')
tokenizer = Tokenizer.from_file('tokenizer.json')
target_seq = 'MQIPQAPWPVVWAVLQLGWRPGWFLDSPDRPWNPPTFSPALLVVTEGDNATFTCSFSNTSESFVLNWYRMSPSNQTDKLAAFPEDRSQPGQDCRFRVTQLPNGRDFHMSVVRARRNDSGTYLCGAISLAPKAQIKESLRAELRVTERRAEVPTAHPSPSPRPAGQFQTLVVGVVGGLLGSLVLLVWVLAVICSRAARGTIGARRTGQPLKEDPSAVPVFSVDYGELDFQWREKTPEPPVPCVPEQTEYATIVFPSGMGTSSPARRGSADGPRSAQPLRPEDGHCSWPL'
num_seqs = 2
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
output = model.generate(**tokenizer(target_seq, return_tensors="pt").to(device),
max_length=1024,
do_sample=True,
top_p=0.9,
temperature=0.8,
num_return_sequences=num_seqs)
generated_seqs = [tokenizer.decode(seq, skip_special_tokens=True) for seq in output]
相关链接
扩展资源
局限性与未来方向
- 当前需实验验证预测结果
- 未来将扩展训练数据多样性并提升抗体有效性预测精度
联系方式
如有疑问请联系:[XYZ]