语言:
- 西班牙语
标签:
- 生物医学
- 临床
- 西班牙语
许可证: Apache-2.0
指标:
- 困惑度(ppl)
示例:
- 文本: "唯一值得提及的个人病史是动脉。"
- 文本: "全身骨骼X光检查未发现异常,亦无脊椎病变。"
- 文本: "胸腹盆部检查未发现具有临床意义的病理学表现。"
西班牙语生物医学语言模型
目录
点击展开
模型描述
西班牙语生物医学预训练语言模型。关于语料库、预训练及评估的详细信息,请参阅官方代码库。
预期用途与限制
该模型目前仅适用于掩码语言建模任务(如填空任务,可通过推理API或下一节介绍的方式体验)。但更适用于下游任务的微调,例如命名实体识别或文本分类。
使用方法
局限性与偏差
当前版本尚未对模型潜在偏差进行量化评估。需要注意的是,由于训练语料通过多源网络爬取技术收集,模型可能存在偏差。我们计划未来开展相关研究,届时将更新本模型卡。
训练过程
分词与模型预训练
本模型基于RoBERTa架构,在西班牙语生物医学语料上训练而成。训练语料采用原始RoBERTA模型的字节级字节对编码(BPE)分词技术,词汇表含52,000个词元。预训练采用与RoBERTa基础模型相同的超参数配置,在子词级别进行掩码语言建模。使用16块NVIDIA V100(16GB DDRAM)GPU训练48小时,采用Adam优化器(峰值学习率0.0005),有效批次大小为2,048句。
训练语料与预处理
训练语料由多个公开可获取的西班牙语生物医学语料组成,经过以下清洗流程:
- 多格式数据解析
- 句子分割
- 语言检测
- 过滤格式异常句子
- 去除重复内容
- 保留原始文档边界
最终语料经过去重处理后包含约9.63亿词元。下表展示各清洗后语料的基本统计信息:
名称 |
词元数量 |
描述 |
医疗爬虫数据 |
903,558,136 |
爬取3,000多个西班牙语生物医学和健康领域URL所得数据 |
临床病例杂集 |
102,855,267 |
各类医学内容汇编,主要为临床病例报告(注:临床病例报告是医务人员分享病例的科学出版物,不同于临床笔记或文档) |
Scielo |
60,007,289 |
2017年从西班牙SciELO服务器爬取的西语出版物 |
BARR2背景集 |
24,516,442 |
生物医学缩写识别与解析(BARR2)数据集,包含多学科西班牙语临床病例研究章节 |
维基百科生命科学 |
13,890,501 |
2021年4月1日通过维基百科API库从"Ciencias_de_la_vida"类别开始爬取,最多包含5级子类别,已去重 |
专利数据 |
13,463,387 |
西班牙医疗领域谷歌专利数据(西班牙语),专利代码包括:"A61B", "A61C","A61F", "A61H", "A61K", "A61L","A61M", "A61B", "A61P" |
EMEA |
5,377,448 |
从欧洲药品管理局PDF文档构建的平行语料中提取的西语文本 |
mespen_Medline |
4,166,077 |
从西英平行生物医学文献语料库中提取的西语文本,语料源自MedlinePlus |
PubMed |
1,858,966 |
2017年爬取的PubMed开放获取文章 |
评估
模型在三个临床命名实体识别(NER)任务上进行了微调评估:
- PharmaCoNER:西班牙医学文本中的化学与药物提及识别任务
- CANTEMIST:西班牙语肿瘤形态学术语识别任务
- ICTUSnet:包含18家西班牙医院1,006份卒中患者出院报告,含51类变量超过79,000条标注
我们采用标准线性层结合BIO标注方案处理NER任务,与以下模型对比:
F1分数对比结果如下:
任务/模型 |
bsc-bio-es |
XLM-R-Galén |
BETO-Galén |
mBERT-Galén |
mBERT |
BioBERT |
roberta-base-bne |
PharmaCoNER |
0.8907 |
0.8754 |
0.8537 |
0.8594 |
0.8671 |
0.8545 |
0.8474 |
CANTEMIST |
0.8220 |
0.8078 |
0.8153 |
0.8168 |
0.8116 |
0.8070 |
0.7875 |
ICTUSnet |
0.8727 |
0.8716 |
0.8498 |
0.8509 |
0.8631 |
0.8521 |
0.8677 |
微调脚本详见官方GitHub代码库。
附加信息
作者
巴塞罗那超级计算中心文本挖掘单元(bsc-temu@bsc.es)
联系方式
如需更多信息,请发送邮件至plantl-gob-es@bsc.es
版权
西班牙数字化与人工智能国务秘书处(SEDIA)版权所有(2022)
许可信息
Apache License 2.0
资助
本工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助
引用信息
若使用本模型,请引用:
@inproceedings{carrino-etal-2022-pretrained,
title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
author = "Carrino, Casimiro Pio and
Llop, Joan and
P{\`a}mies, Marc and
Guti{\'e}rrez-Fandi{\~n}o, Asier and
Armengol-Estap{\'e}, Jordi and
Silveira-Ocampo, Joaqu{\'\i}n and
Valencia, Alfonso and
Gonzalez-Agirre, Aitor and
Villegas, Marta",
booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.bionlp-1.19",
doi = "10.18653/v1/2022.bionlp-1.19",
pages = "193--199",
abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}
免责声明
点击展开
本模型库发布的模型为通用目的设计,可供第三方使用。这些模型可能存在偏差或其他非预期缺陷。
当第三方部署或提供基于本模型(或模型衍生系统)的服务时,需注意其有责任:
- 降低使用风险
- 遵守适用法规(包括人工智能相关法规)
模型所有者(SEDIA-西班牙数字化与人工智能国务秘书处)及创建者(BSC-巴塞罗那超级计算中心)不对第三方使用结果承担任何责任。
Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.
En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.