BiomedBERT开源生物医学语言模型 - 基于海量文献，多任务先进水平

首页

Biomednlp BiomedBERT Base Uncased Abstract Fulltext

由 microsoft 开发

BiomedBERT是基于PubMed摘要和PubMedCentral全文预训练的生物医学领域专用语言模型，在多项生物医学NLP任务中达到最先进水平。

大型语言模型英语开源协议:MIT #生物医学NLP #全文预训练 #领域专用BERT

下载量 1.7M

发布时间 : 3/2/2022

模型简介

该模型专门针对生物医学领域设计，通过从头预训练而非微调通用模型的方式，显著提升了生物医学自然语言处理任务的性能。

模型特点

领域专用预训练

完全基于生物医学领域文本（PubMed摘要和PubMedCentral全文）从头预训练，而非通用模型的微调

最先进性能

在生物医学语言理解与推理基准(BLURB)上保持最高得分记录

大规模生物医学语料

使用PubMed和PubMedCentral的丰富无标注文本进行预训练

模型能力

生物医学文本理解

生物医学实体识别

生物医学关系抽取

生物医学问答

生物医学文本分类

使用案例

临床研究

药物相互作用分析

从医学文献中识别药物之间的相互作用关系

在相关基准测试中达到最先进准确率

医学信息提取

疾病-基因关联识别

从研究论文中提取疾病与基因之间的关联信息

🚀 MSR BiomedBERT (摘要 + 全文)

MSR BiomedBERT是专门为生物医学领域设计的预训练语言模型。它基于大量生物医学文献进行预训练，在众多生物医学自然语言处理任务中取得了优异的成绩，为生物医学研究提供了强大的语言处理能力。

✨ 主要特性

该模型曾被命名为 "PubMedBERT (摘要 + 全文)"。你可以采用新的模型名称 "microsoft/BiomedNLP - BiomedBERT - base - uncased - abstract - fulltext"，或者如果你需要使用旧名称，可将 transformers 库更新到4.22+版本。
预训练大型神经语言模型（如BERT）在许多自然语言处理（NLP）任务中取得了显著进展。不过，大多数预训练工作集中在通用领域语料库，如新闻和网络文本。普遍认为，即使是特定领域的预训练也可以从通用领域语言模型开始受益。近期研究表明，对于像生物医学这样有大量无标签文本的领域，从头开始预训练语言模型比在通用领域语言模型上继续预训练能带来显著提升。
BiomedBERT是使用来自 PubMed 的摘要和 PubMedCentral 的全文文章从头开始预训练的。该模型在许多生物医学NLP任务中达到了最先进的性能，目前在生物医学语言理解与推理基准测试中保持领先分数。

📚 详细文档

引用信息

如果你在研究中发现BiomedBERT很有用，请引用以下论文：

@misc{pubmedbert,
  author = {Yu Gu and Robert Tinn and Hao Cheng and Michael Lucas and Naoto Usuyama and Xiaodong Liu and Tristan Naumann and Jianfeng Gao and Hoifung Poon},
  title = {Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing},
  year = {2020},
  eprint = {arXiv:2007.15779},
}