language:
- es
tags:
- 生物医学
- 临床
- 电子健康记录
- 西班牙语
license: apache-2.0
metrics:
- 困惑度
widget:
- text: "唯一需要提及的个人病史是动脉。"
- text: "全身骨放射学检查未发现异常,也未发现脊椎异常。"
- text: "在胸腹盆部检查中未发现具有病理意义的异常。"
西班牙语生物医学临床语言模型
目录
点击展开
模型描述
西班牙语生物医学预训练语言模型。关于语料库、预训练和评估的更多细节,请查看官方代码库。
预期用途与限制
该模型目前仅支持掩码语言建模任务(可通过推理API或下一节介绍的方式尝试填空任务)。但该模型设计初衷是用于下游任务微调,如命名实体识别或文本分类。
使用方法
局限性与偏差
在提交时尚未采取具体措施评估模型内嵌的偏差。但我们充分意识到,由于语料是通过网络爬虫技术从多个来源收集的,模型可能存在偏差。我们计划未来开展相关研究,若完成研究将更新本模型卡。
训练过程
分词与模型预训练
本模型是基于RoBERTa架构的模型,训练数据来自西班牙语生物医学-临床混合语料库(详见下节)。训练语料采用原始RoBERTA模型的字节级字节对编码(BPE)进行分词,词汇表含52,000个token。预训练采用与RoBERTa基础模型相同的超参数配置,在子词级别进行掩码语言建模。使用16块16GB显存的NVIDIA V100 GPU训练48小时,采用Adam优化器(峰值学习率0.0005),有效批次大小为2,048句。
训练语料与预处理
训练语料由多个西班牙语生物医学语料库和真实临床语料组成(包含超过27.8万份临床文档和记录)。为在保留临床语言特性的同时保证质量,仅对生物医学语料进行清洗处理,临床语料保持原始状态。清洗流程主要包括:
- 多格式数据解析
- 句子分割
- 语言检测
- 过滤畸形句子
- 去重重复内容
- 保留原始文档边界
生物医学语料经全局去重后,与未清洗的临床语料合并,最终形成包含超过10亿token的西语生物医学-临床混合语料库。下表显示各清洗后语料的基本统计信息:
名称 |
token数量 |
描述 |
医学爬虫 |
903,558,13 |
爬取3,000多个西班牙生物医学和健康领域URL所得内容 |
临床病例杂集 |
102,855,267 |
各类医学内容合集,主要为临床病例报告(注:病例报告是医务人员分享病例的科学出版物,不同于临床记录文档) |
电子健康记录 |
95,267,20 |
超过27.8万份临床文档集合,包括出院报告、病程记录和X光报告,总计9100万token |
Scielo |
60,007,289 |
2017年从西班牙SciELO服务器爬取的西语出版物 |
BARR2背景集 |
24,516,442 |
生物医学缩写识别与解析语料(BARR2),包含多学科西班牙语临床病例研究章节 |
维基百科生命科学 |
13,890,501 |
2021年4月1日通过维基百科API库从"生命科学"类别开始爬取的文章,最多包含5级子类,已去除重复链接 |
专利 |
13,463,387 |
西班牙医疗领域谷歌专利(西语),接受以下专利分类号:A61B、A61C、A61F、A61H、A61K、A61L、A61M、A61B、A61P |
EMEA |
5,377,448 |
从欧洲药品管理局PDF文档构建的平行语料库中提取的西语内容 |
mespen_Medline |
4,166,077 |
从西英平行语料库提取的西语文章,语料来自MedlinePlus的生物医学科学文献 |
PubMed |
1,858,966 |
2017年爬取PubMed开放获取文章 |
评估结果
模型在三个临床命名实体识别(NER)任务上进行了微调评估:
- PharmaCoNER:西班牙医学文本中化学药物提及识别任务
- CANTEMIST:西班牙语肿瘤形态学命名实体识别任务
- ICTUSnet:包含18家西班牙医院1,006份卒中患者出院报告,含79,000余条51类变量标注
我们将NER任务建模为token分类问题,采用标准线性层和BIO标注方案。对比模型包括:西语通用模型roberta-base-bne、支持西语的多语言通用模型mBERT、英语领域模型BioBERT,以及三个基于持续预训练的领域模型mBERT-Galén、XLM-R-Galén和BETO-Galén。F1分数对比如下:
任务/模型 |
bsc-bio-ehr-es |
XLM-R-Galén |
BETO-Galén |
mBERT-Galén |
mBERT |
BioBERT |
roberta-base-bne |
PharmaCoNER |
0.8913 |
0.8754 |
0.8537 |
0.8594 |
0.8671 |
0.8545 |
0.8474 |
CANTEMIST |
0.8340 |
0.8078 |
0.8153 |
0.8168 |
0.8116 |
0.8070 |
0.7875 |
ICTUSnet |
0.8756 |
0.8716 |
0.8498 |
0.8509 |
0.8631 |
0.8521 |
0.8677 |
微调脚本详见官方GitHub代码库。
附加信息
作者
巴塞罗那超级计算中心文本挖掘单元(bsc-temu@bsc.es)
联系方式
如需更多信息,请发送邮件至plantl-gob-es@bsc.es
版权声明
版权归属西班牙数字化与人工智能国务秘书处(SEDIA)(2022年)
许可信息
Apache许可证2.0版
资助方
本工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助
引用方式
若使用本模型,请引用我们的工作:
@inproceedings{carrino-etal-2022-pretrained,
title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
author = "Carrino, Casimiro Pio and
Llop, Joan and
P{\`a}mies, Marc and
Guti{\'e}rrez-Fandi{\~n}o, Asier and
Armengol-Estap{\'e}, Jordi and
Silveira-Ocampo, Joaqu{\'\i}n and
Valencia, Alfonso and
Gonzalez-Agirre, Aitor and
Villegas, Marta",
booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.bionlp-1.19",
doi = "10.18653/v1/2022.bionlp-1.19",
pages = "193--199",
abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}
免责声明
点击展开
本仓库发布的模型为通用目的设计,可供第三方使用。这些模型可能存在偏差和/或其他不期望的失真。
当第三方部署或提供基于这些模型的系统/服务时,应注意其有责任降低使用风险,并确保符合适用法规(包括人工智能使用相关法规)。
在任何情况下,模型所有者(SEDIA-西班牙数字化与人工智能国务秘书处)和创建者(BSC-巴塞罗那超级计算中心)均不对第三方使用这些模型产生的结果承担责任。
Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.
En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.