roberta-base-biomedical-es开源模型 - 用于西班牙语生物医学临床文本处理

首页

Roberta Base Biomedical Es

由 PlanTL-GOB-ES 开发

专为西班牙语生物医学领域设计的RoBERTa架构预训练语言模型，适用于临床文本处理任务

大型语言模型

Transformers

西班牙语开源协议:Apache-2.0 #西班牙语生物医学 #临床文本处理 #医疗命名实体识别

下载量 335

发布时间 : 3/2/2022

模型简介

基于RoBERTa架构的中等规模生物医学语言模型，在9.63亿标记的西班牙语生物医学语料上训练，支持掩码语言建模任务，特别适合生物医学文本的命名实体识别和文本分类

模型特点

领域专业化

专门针对西班牙语生物医学领域优化，在临床文本处理上表现优于通用模型

高质量语料

使用经过严格清洗的9.63亿标记生物医学语料训练，整合了多个权威医学数据源

高效训练

采用与原始RoBERTa相同的训练参数，在16块V100 GPU上仅需48小时完成训练

模型能力

生物医学文本填空

临床命名实体识别

医学文本分类

生物医学信息抽取

使用案例

临床文档处理

病史自动补全

自动补全临床记录中的专业术语

示例显示对'动脉<mask>'的补全准确率达98.5%

放射学报告分析

识别影像报告中的异常描述

在骨骼X光报告中准确识别异常描述

医学研究

文献信息抽取

从医学文献中提取关键临床信息

🚀 西班牙语生物医学语言模型

该模型是专门为西班牙语设计的生物医学预训练语言模型，可用于填充掩码任务，也可在下游任务中微调使用。

🚀 快速开始

模型描述

这是一个用于西班牙语的生物医学预训练语言模型。如需了解有关语料库、预训练和评估的更多详细信息，请查看官方仓库并阅读我们的预印本。

预期用途和限制

该模型仅适用于掩码语言建模，以执行填充掩码任务（您可以尝试推理 API 或阅读下一部分）。不过，它旨在在诸如命名实体识别或文本分类等下游任务上进行微调。

如何使用

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
model = AutoModelForMaskedLM.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
from transformers import pipeline
unmasker = pipeline('fill-mask', model="BSC-TeMU/roberta-base-biomedical-es")
unmasker("El único antecedente personal a reseñar era la <mask> arterial.")

# 输出
[
  {
    "sequence": " El único antecedente personal a reseñar era la hipertensión arterial.",
    "score": 0.9855039715766907,
    "token": 3529,
    "token_str": " hipertensión"
  },
  {
    "sequence": " El único antecedente personal a reseñar era la diabetes arterial.",
    "score": 0.0039140828885138035,
    "token": 1945,
    "token_str": " diabetes"
  },
  {
    "sequence": " El único antecedente personal a reseñar era la hipotensión arterial.",
    "score": 0.002484665485098958,
    "token": 11483,
    "token_str": " hipotensión"
  },
  {
    "sequence": " El único antecedente personal a reseñar era la Hipertensión arterial.",
    "score": 0.0023484621196985245,
    "token": 12238,
    "token_str": " Hipertensión"
  },
  {
    "sequence": " El único antecedente personal a reseñar era la presión arterial.",
    "score": 0.0008009297889657319,
    "token": 2267,
    "token_str": " presión"
  }
]

✨ 主要特性

该模型基于 RoBERTa 架构，在西班牙语生物医学语料上进行预训练，可用于填充掩码任务，也能在下游任务中微调，如命名实体识别和文本分类。

📦 安装指南

文档未提及安装步骤，故跳过。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
model = AutoModelForMaskedLM.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
from transformers import pipeline
unmasker = pipeline('fill-mask', model="BSC-TeMU/roberta-base-biomedical-es")
unmasker("El único antecedente personal a reseñar era la <mask> arterial.")

📚 详细文档

训练

分词和模型预训练

该模型是一个基于 RoBERTa 的模型，在从多个来源收集的西班牙语 生物医学 语料库上进行训练（详见下一节）。

训练语料库使用了字节对编码 (BPE) 的字节版本进行分词，该版本在原始 RoBERTA 模型中使用，词汇量为 52,000 个标记。预训练包括在子词级别进行掩码语言模型训练，采用了与 RoBERTa 基础模型相同的方法，并使用了与原始工作相同的超参数。训练总共持续了 48 小时，使用了 16 个 16GB DDRAM 的 NVIDIA V100 GPU，采用 Adam 优化器，峰值学习率为 0.0005，有效批量大小为 2,048 个句子。

训练语料库和预处理

训练语料库由几个西班牙语生物医学语料库组成，这些语料库从公开可用的语料库和爬虫中收集而来。为了获得高质量的训练语料库，应用了一个包含以下操作的清理流程：

不同格式的数据解析
- 句子分割
- 语言检测
- 过滤格式错误的句子
- 重复内容去重
- 保留原始文档边界

最后，将语料库连接起来，并在语料库之间进行进一步的全局去重。结果是一个中等规模的西班牙语生物医学语料库，由大约 9.63 亿个标记组成。下表显示了各个清理后语料库的一些基本统计信息：

名称	标记数量	描述
医学爬虫	745,705,946	对属于西班牙语生物医学和健康领域的 3000 多个 URL 进行的爬虫。
临床病例杂项	102,855,267	各种医学内容，主要是临床病例。请注意，临床病例报告是医学从业者分享患者病例的科学出版物，它与临床笔记或文档不同。
Scielo	60,007,289	2017 年从西班牙 SciELO 服务器爬取的西班牙语出版物。
BARR2_background	24,516,442	生物医学缩写识别和解析 (BARR2)，包含来自各种临床学科的西班牙语临床病例研究部分。
维基百科生命科学	13,890,501	2021 年 4 月 1 日使用维基百科 API Python 库从 “Ciencias_de_la_vida” 类别开始爬取的维基百科文章，最多爬取 5 个子类别。然后丢弃指向同一文章的多个链接，以避免重复内容。
专利	13,463,387	西班牙医学领域的谷歌专利（西班牙语）。专利 Json 文件接受的代码（医学领域）为：“A61B”、“A61C”、“A61F”、“A61H”、“A61K”、“A61L”、“A61M”、“A61B”、“A61P”。
EMEA	5,377,448	从欧洲药品管理局的 PDF 文档组成的平行语料库中提取的西班牙语文档。
mespen_Medline	4,166,077	从一个由生物医学科学文献组成的西班牙语 - 英语平行语料库集合中提取的西班牙语文章。该平行资源集合来自 MedlinePlus 来源。
PubMed	1,858,966	2017 年从 PubMed 存储库爬取的开放获取文章。

评估

该模型在命名实体识别 (NER) 任务上使用以下数据集进行了评估：

PharmaCoNER：是一个关于从西班牙语医学文本中识别化学和药物提及的任务（更多信息请参见：https://temu.bsc.es/pharmaconer/）。
CANTEMIST：是一个专门关注西班牙语肿瘤形态命名实体识别的共享任务（更多信息请参见：https://zenodo.org/record/3978041#.YTt5qH2xXbQ）。
ICTUSnet：由来自 18 家不同西班牙医院的 1006 份中风患者出院报告组成。它包含 51 种不同类型变量的 79,000 多个注释。

评估结果与 mBERT 和 BETO 模型进行了比较：

F1 - 精确率 - 召回率	roberta-base-biomedical-es	mBERT	BETO
PharmaCoNER	89.48 - 87.85 - 91.18	87.46 - 86.50 - 88.46	88.18 - 87.12 - 89.28
CANTEMIST	83.87 - 81.70 - 86.17	82.61 - 81.12 - 84.15	82.42 - 80.91 - 84.00
ICTUSnet	88.12 - 85.56 - 90.83	86.75 - 83.53 - 90.23	85.95 - 83.10 - 89.02

额外信息

作者

巴塞罗那超级计算中心的文本挖掘单元 (TeMU) (bsc-temu@bsc.es)

联系信息

如需进一步信息，请发送电子邮件至 plantl-gob-es@bsc.es

版权

版权归西班牙数字化和人工智能秘书处 (SEDIA) 所有 (2022)

许可信息

Apache 许可证，版本 2.0

资金支持

这项工作由西班牙数字化和人工智能秘书处 (SEDIA) 在 Plan-TL 框架内资助。

引用信息

如果您使用我们的模型，请引用我们的最新预印本：

@misc{carrino2021biomedical,
      title={Biomedical and Clinical Language Models for Spanish: On the Benefits of Domain-Specific Pretraining in a Mid-Resource Scenario}, 
      author={Casimiro Pio Carrino and Jordi Armengol-Estapé and Asier Gutiérrez-Fandiño and Joan Llop-Palao and Marc Pàmies and Aitor Gonzalez-Agirre and Marta Villegas},
      year={2021},
      eprint={2109.03570},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

如果您使用我们的医学爬虫语料库，请引用预印本：

@misc{carrino2021spanish,
      title={Spanish Biomedical Crawled Corpus: A Large, Diverse Dataset for Spanish Biomedical Language Models}, 
      author={Casimiro Pio Carrino and Jordi Armengol-Estapé and Ona de Gibert Bonet and Asier Gutiérrez-Fandiño and Aitor Gonzalez-Agirre and Martin Krallinger and Marta Villegas},
      year={2021},
      eprint={2109.07765},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}