bsc-bio-ehr-es开源语言模型 - 助力西班牙语生物医学与临床NLP任务

首页

Bsc Bio Ehr Es

由 PlanTL-GOB-ES 开发

针对西班牙语生物医学和临床文本优化的预训练语言模型，支持临床NLP任务

大型语言模型

Transformers

西班牙语开源协议:Apache-2.0 #西班牙语临床文本 #生物医学实体识别 #电子健康记录处理

下载量 624

发布时间 : 4/8/2022

模型简介

基于RoBERTa架构的西班牙语生物医学领域专用模型，在混合生物医学语料和真实临床记录上训练，适用于临床文本分析任务

模型特点

专业领域优化

在10亿token的生物医学-临床混合语料上训练，包含27.8万份真实临床文档

多源数据整合

整合医学爬虫、临床病例、电子健康记录等11种专业数据源

临床NER优势

在PharmaCoNER、CANTEMIST等临床NER任务上超越通用和多语言模型

模型能力

生物医学文本理解

临床实体识别

电子健康记录分析

医学文本分类

使用案例

临床信息提取

药物名称识别

从临床文本中识别化学药物提及

在PharmaCoNER任务达到0.8913 F1分数

肿瘤形态学识别

识别西班牙语肿瘤学术语

在CANTEMIST任务达到0.8340 F1分数

电子健康记录处理

出院报告分析

解析卒中患者出院报告中的临床变量

在ICTUSnet数据集达到0.8756 F1分数

🚀 用于西班牙语的生物医学临床语言模型

本项目是一个专为西班牙语设计的生物医学预训练语言模型，可用于掩码语言建模任务，也可在下游任务中进行微调，为生物医学领域的自然语言处理提供有力支持。

🚀 快速开始

本模型可直接用于掩码语言建模以执行填充掩码任务，你可以尝试推理API或参考后续章节。同时，它也可在诸如命名实体识别或文本分类等下游任务中进行微调。

✨ 主要特性

特定领域适配：专为西班牙语生物医学和临床领域设计，能更好地处理该领域的专业文本。
多任务支持：既可以直接用于填充掩码任务，也能在下游任务中进行微调。
性能优越：在多个命名实体识别任务中，与其他模型相比取得了更优的F1分数。

📦 安装指南

文档未提及具体安装步骤，暂无法提供。

💻 使用示例

文档未提供代码示例，暂无法展示。

📚 详细文档

模型描述

这是一个用于西班牙语的生物医学预训练语言模型。有关语料库、预训练和评估的更多详细信息，请查看官方仓库。

预期用途和限制

该模型仅适用于掩码语言建模以执行填充掩码任务（你可以尝试推理API或阅读下一部分）。不过，它旨在在下游任务（如命名实体识别或文本分类）中进行微调。

局限性和偏差

在提交时，尚未采取措施来估计模型中嵌入的偏差。然而，我们深知由于语料库是通过在多个网络源上使用爬虫技术收集的，我们的模型可能存在偏差。我们打算在未来对这些领域进行研究，如果完成研究，此模型卡片将进行更新。

🔧 技术细节

分词和模型预训练

该模型是一个基于 RoBERTa 的模型，在从多个来源收集的西班牙语 生物医学临床 语料库上进行训练（见下一节）。训练语料库使用了原始 RoBERTa 模型中使用的字节版本的字节对编码 (BPE) 进行分词，词汇量大小为52,000个标记。预训练包括在子词级别进行掩码语言模型训练，采用了与 RoBERTa 基础模型相同的方法和超参数。训练总共持续了48小时，使用了16个16GB DDRAM的NVIDIA V100 GPU，采用Adam优化器，峰值学习率为0.0005，有效批量大小为2,048个句子。

训练语料库和预处理

训练语料库由几个西班牙语生物医学语料库组成，这些语料库从公开可用的语料库和爬虫中收集，以及一个从超过278K个临床文档和笔记中收集的真实临床语料库。为了获得高质量的训练语料库，同时保留临床语言的特点，仅对生物医学语料库应用了清理流程，而临床语料库保持未清理状态。本质上，使用的清理操作包括：

不同格式的数据解析
- 句子分割
- 语言检测
- 过滤格式错误的句子
- 去重重复内容
- 保留原始文档边界

然后，将生物医学语料库连接起来，并对生物医学语料库进行进一步的全局去重。最终，将临床语料库连接到清理后的生物医学语料库，形成一个由超过10亿个标记组成的中等规模的西班牙语生物医学临床语料库。下表显示了各个清理后语料库的一些基本统计信息：

名称	标记数量	描述
医学爬虫	903,558,13	对属于西班牙语生物医学和健康领域的3000多个URL进行的爬虫。
临床病例杂项	102,855,267	各种医学内容，主要是临床病例。请注意，临床病例报告是医学从业者分享患者病例的科学出版物，它与临床笔记或文档不同。
电子健康记录 (EHR) 文档	95,267,20	收集了超过278K个临床文档，包括出院报告、临床病程记录和X光报告，总共9100万个标记。
Scielo	60,007,289	2017年从西班牙语SciELO服务器爬取的西班牙语出版物。
BARR2_背景	24,516,442	生物医学缩写识别和解析 (BARR2)，包含来自各种临床学科的西班牙语临床病例研究部分。
维基百科生命科学	13,890,501	2021年1月4日使用维基百科API Python库从 “Ciencias_de_la_vida” 类别开始爬取的维基百科文章，最多爬取5个子类别。然后丢弃指向同一文章的多个链接以避免重复内容。
专利	13,463,387	西班牙医学领域的谷歌专利（西班牙语）。专利JSON文件接受的代码（医学领域）为："A61B"、"A61C"、"A61F"、"A61H"、"A61K"、"A61L"、"A61M"、"A61B"、"A61P"。
EMEA	5,377,448	从欧洲药品管理局的PDF文档组成的平行语料库中提取的西班牙语文档。
mespen_Medline	4,166,077	从一个由生物医学科学文献组成的西班牙语 - 英语平行语料库中提取的西班牙语文章。该平行资源集合来自MedlinePlus源。
PubMed	1,858,966	2017年从PubMed存储库爬取的开放获取文章。

评估

该模型在三个命名实体识别 (NER) 任务上进行了微调，使用了三个临床NER数据集：

PharmaCoNER：是一个从西班牙语医学文本中识别化学和药物提及的任务（更多信息请见：https://temu.bsc.es/pharmaconer/）。
CANTEMIST：是一个专门关注西班牙语肿瘤形态命名实体识别的共享任务（更多信息请见：https://zenodo.org/record/3978041#.YTt5qH2xXbQ）。
ICTUSnet：由来自18家不同西班牙医院的1006份中风患者出院报告组成。它包含超过79,000个注释，涉及51种不同类型的变量。

我们将NER任务作为一个标记分类问题，使用标准线性层和BIO标记方案来解决。我们将我们的模型与通用领域的西班牙语 roberta-base-bne、支持西班牙语的通用领域多语言模型 mBERT、特定领域的英语模型 BioBERT 以及三个基于持续预训练的特定领域模型 mBERT-Galén、XLM-R-Galén 和 BETO-Galén 进行了比较。下表显示了获得的F1分数：

任务/模型	bsc-bio-ehr-es	XLM-R-Galén	BETO-Galén	mBERT-Galén	mBERT	BioBERT	roberta-base-bne
PharmaCoNER	0.8913	0.8754	0.8537	0.8594	0.8671	0.8545	0.8474
CANTEMIST	0.8340	0.8078	0.8153	0.8168	0.8116	0.8070	0.7875
ICTUSnet	0.8756	0.8716	0.8498	0.8509	0.8631	0.8521	0.8677

微调脚本可以在官方GitHub 仓库中找到。

📄 许可证

本项目采用 Apache许可证2.0版。

作者

巴塞罗那超级计算中心的文本挖掘单元 (TeMU) (bsc-temu@bsc.es)

联系信息

如需更多信息，请发送电子邮件至 plantl-gob-es@bsc.es

版权

版权归西班牙数字化与人工智能国务秘书处 (SEDIA) 所有 (2022)

资金支持

这项工作由西班牙数字化与人工智能国务秘书处 (SEDIA) 在Plan - TL框架内资助。

引用信息

如果您使用这些模型，请引用我们的工作：

@inproceedings{carrino-etal-2022-pretrained,
    title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
    author = "Carrino, Casimiro Pio  and
      Llop, Joan  and
      P{\`a}mies, Marc  and
      Guti{\'e}rrez-Fandi{\~n}o, Asier  and
      Armengol-Estap{\'e}, Jordi  and
      Silveira-Ocampo, Joaqu{\'\i}n  and
      Valencia, Alfonso  and
      Gonzalez-Agirre, Aitor  and
      Villegas, Marta",
    booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
    month = may,
    year = "2022",
    address = "Dublin, Ireland",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2022.bionlp-1.19",
    doi = "10.18653/v1/2022.bionlp-1.19",
    pages = "193--199",
    abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}