P

Protein Matryoshka Embeddings

由 monsoon-nlp 开发
该模型为蛋白质序列生成嵌入向量,支持缩短版嵌入以加速搜索任务。
下载量 2,121
发布时间 : 3/24/2024
模型介绍
内容详情
替代品

模型简介

基于Rostlab/prot_bert_bfd的蛋白质序列嵌入模型,使用套娃损失函数训练,适用于生物学领域的蛋白质相似度计算。

模型特点

套娃嵌入技术
支持生成不同长度的嵌入向量,可根据任务需求平衡精度与效率
专业蛋白质处理
专为IUPAC-IUB编码的蛋白质序列优化,直接处理氨基酸序列
高性能相似度计算
在UniProt数据集上达到0.92+的余弦相似度指标

模型能力

蛋白质序列嵌入生成
蛋白质相似度计算
生物序列特征提取

使用案例

生物信息学
蛋白质功能预测
通过嵌入向量相似度推断未知蛋白质的功能
蛋白质结构分类
基于序列嵌入的蛋白质二级/三级结构分类
在TAPE基准测试中表现良好
药物研发
靶点蛋白筛选
快速筛选与目标蛋白具有相似结构的候选蛋白