G

GO Language

由 damlab 开发
本模型旨在将蛋白质的基因本体定义编码为向量表示,用于探索基因层面的相似性以及功能术语间的比较。
下载量 25
发布时间 : 4/8/2022
模型介绍
内容详情
替代品

模型简介

该模型使用BERT风格的掩码语言学习技术,训练数据来源于模式生物的基因本体术语集合,设计用于PROT-BERT与GO-Language之间的翻译模型,有助于预测新基因的功能。

模型特点

基因本体术语编码
将基因本体术语及其注释描述编码为向量表示,便于功能比较和分析。
掩码语言学习
采用15%掩码率的BERT风格训练,能够预测缺失的基因本体术语。
跨模型翻译
设计用于PROT-BERT与GO-Language之间的翻译,支持新基因功能预测。

模型能力

基因本体术语预测
功能相似性分析
生物学术语向量表示

使用案例

生物信息学
新基因功能预测
通过模型预测未知基因可能参与的生物过程或分子功能。
可提供候选功能列表及置信度评分
功能相似性分析
比较不同基因的GO术语向量表示,评估功能相似性。