语言:
- 西班牙语
标签:
- 生物医学
- 西班牙语
许可证: Apache-2.0
评估指标:
- 困惑度(ppl)
示例:
- 文本: "唯一需要记录的个人病史是动脉。"
- 文本: "全身骨骼X光未检测到异常,也未发现脊椎异常。"
- 文本: "在胸腹盆检查中未发现具有临床意义的病理学表现。"
西班牙语生物医学语言模型
目录
点击展开
模型描述
西班牙语生物医学预训练语言模型。关于语料库、预训练及评估的详细信息,请参阅官方代码库和我们的预印本论文。
预期用途与限制
本模型当前可直接用于掩码语言建模任务(如填空任务,可通过推理API或下文示例使用)。但更适用于通过微调处理下游任务,如命名实体识别或文本分类。
使用方法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
model = AutoModelForMaskedLM.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
from transformers import pipeline
unmasker = pipeline('fill-mask', model="BSC-TeMU/roberta-base-biomedical-es")
unmasker("唯一需要记录的个人病史是动脉<mask>。")
# 输出示例
[
{
"sequence": "唯一需要记录的个人病史是动脉高血压。",
"score": 0.9855039715766907,
"token": 3529,
"token_str": "高血压"
},
{
"sequence": "唯一需要记录的个人病史是动脉糖尿病。",
"score": 0.0039140828885138035,
"token": 1945,
"token_str": "糖尿病"
},
{
"sequence": "唯一需要记录的个人病史是动脉低血压。",
"score": 0.002484665485098958,
"token": 11483,
"token_str": "低血压"
},
{
"sequence": "唯一需要记录的个人病史是动脉高血压。",
"score": 0.0023484621196985245,
"token": 12238,
"token_str": "高血压"
},
{
"sequence": "唯一需要记录的个人病史是动脉血压。",
"score": 0.0008009297889657319,
"token": 2267,
"token_str": "血压"
}
]
训练过程
分词与模型预训练
本模型基于RoBERTa架构,在西班牙语生物医学语料库上训练而成。采用52,000词表的字节级字节对编码(BPE)分词技术,其掩码语言建模训练参数与原始RoBERTa基础模型保持一致。使用16块NVIDIA V100 GPU(16GB显存)耗时48小时完成训练,采用Adam优化器(峰值学习率0.0005),有效批次大小为2,048句。
训练语料与预处理
训练语料整合了多个公开生物医学数据集,经过解析、分句、语言检测、异常句过滤、内容去重等严格清洗流程,最终形成包含约9.63亿标记的中等规模语料库。主要子语料统计如下:
名称 |
标记数量 |
描述 |
医学爬虫 |
745,705,946 |
涵盖3,000+西班牙语生物医学领域URL的爬取数据 |
临床病例集 |
102,855,267 |
各类医学内容(主要是临床病例报告) |
Scielo |
60,007,289 |
2017年从西班牙SciELO服务器爬取的西语出版物 |
BARR2背景集 |
24,516,442 |
包含多学科西班牙语临床病例研究的缩写识别数据集 |
维基百科生命科学 |
13,890,501 |
2021年通过维基百科API从"生命科学"类别爬取的文章 |
专利文献 |
13,463,387 |
西班牙医疗领域谷歌专利数据(专利分类号:A61B等) |
EMEA |
5,377,448 |
欧洲药品管理局PDF文档构建的平行语料西语部分 |
mespen_Medline |
4,166,077 |
MedlinePlus来源的生物医学文献西英平行语料西语部分 |
PubMed |
1,858,966 |
2017年爬取的PubMed开放获取文章 |
评估结果
模型在以下命名实体识别(NER)数据集上评估,性能优于mBERT和BETO模型:
F1-精确率-召回率 |
roberta-base-biomedical-es |
mBERT |
BETO |
PharmaCoNER |
89.48 - 87.85 - 91.18 |
87.46 - 86.50 - 88.46 |
88.18 - 87.12 - 89.28 |
CANTEMIST |
83.87 - 81.70 - 86.17 |
82.61 - 81.12 - 84.15 |
82.42 - 80.91 - 84.00 |
ICTUSnet |
88.12 - 85.56 - 90.83 |
86.75 - 83.53 - 90.23 |
85.95 - 83.10 - 89.02 |
附加信息
作者
巴塞罗那超级计算中心文本挖掘单元(TeMU) (bsc-temu@bsc.es)
联系方式
如需更多信息,请发送邮件至plantl-gob-es@bsc.es
版权声明
西班牙数字化与人工智能国务秘书处(SEDIA)版权所有(2022)
许可信息
Apache许可证2.0版
资助方
本工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助。
引用信息
若使用本模型,请引用我们的预印本论文:
@misc{carrino2021biomedical,
title={Biomedical and Clinical Language Models for Spanish: On the Benefits of Domain-Specific Pretraining in a Mid-Resource Scenario},
author={Casimiro Pio Carrino and Jordi Armengol-Estapé and Asier Gutiérrez-Fandiño and Joan Llop-Palao and Marc Pàmies and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2109.03570},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
若使用医学爬虫语料,请引用:
@misc{carrino2021spanish,
title={Spanish Biomedical Crawled Corpus: A Large, Diverse Dataset for Spanish Biomedical Language Models},
author={Casimiro Pio Carrino and Jordi Armengol-Estapé and Ona de Gibert Bonet and Asier Gutiérrez-Fandiño and Aitor Gonzalez-Agirre and Martin Krallinger and Marta Villegas},
year={2021},
eprint={2109.07765},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
免责声明
点击展开
本仓库发布的模型为通用目的设计,可供第三方使用。这些模型可能存在偏见或其他不良偏差。
当第三方部署或提供基于这些模型的系统/服务时,应注意其有责任降低使用风险并遵守适用法规(包括人工智能相关法规)。模型所有者(SEDIA)和创建者(BSC)不对第三方使用结果承担任何责任。
Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.
En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.