语言:
- 西班牙语
标签:
- 生物医学
- 临床
- 西班牙语
许可证: Apache-2.0
评估指标:
- 困惑度(ppl)
示例:
- 文本: "唯一值得提及的个人病史是动脉。"
- 文本: "全身骨骼X光检查未发现异常,亦无脊椎病变。"
- 文本: "胸腹盆部扫描未发现显著病理学改变。"
西班牙语生物医学临床语言模型
目录
点击展开
模型描述
基于西班牙语生物医学临床语料库预训练的RoBERTa模型。该模型采用RoBERTa架构,通过收集多源西班牙语生物医学临床文本训练而成。
用途与限制
当前版本专用于掩码语言建模任务(可通过推理API或代码调用体验)。建议在下游任务(如命名实体识别或文本分类)中进行微调后使用。
使用方法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
model = AutoModelForMaskedLM.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
from transformers import pipeline
unmasker = pipeline('fill-mask', model="BSC-TeMU/roberta-base-biomedical-es")
unmasker("唯一值得提及的个人病史是<mask>动脉。")
# 输出示例
[
{
"生成文本": "唯一值得提及的个人病史是高血压动脉。",
"置信度": 0.9855039715766907,
"标记ID": 3529,
"标记文本": "高血压"
},
{
"生成文本": "唯一值得提及的个人病史是糖尿病动脉。",
"置信度": 0.0039140828885138035,
"标记ID": 1945,
"标记文本": "糖尿病"
}
]
局限性与偏差
当前版本尚未进行偏差评估。需注意模型可能包含训练语料中存在的偏见,建议在关键应用场景中进行人工验证。
训练过程
采用52,000词表的BPE编码,使用16块NVIDIA V100 GPU(16GB显存)训练48小时,有效批大小2,048句,峰值学习率0.0005。训练语料包含:
- 医疗爬虫数据(7.45亿词)
- 临床病例集(1.02亿词)
- 临床文档(9,125万词)
- SciELO文献(6,000万词)
- BARR2临床数据集(2,451万词)
- 维基百科生命科学条目(1,389万词)
- 医疗专利(1,346万词)
- EMEA药品文档(537万词)
- Medline平行语料(416万词)
- PubMed开放论文(185万词)
评估结果
在三个西班牙语医疗NER任务上的表现优于mBERT和BETO模型:
F1-精确率-召回率 |
本模型 |
mBERT |
BETO |
PharmaCoNER |
90.04-88.92-91.18 |
87.46-86.50-88.46 |
88.18-87.12-89.28 |
CANTEMIST |
83.34-81.48-85.30 |
82.61-81.12-84.15 |
82.42-80.91-84.00 |
ICTUSnet |
88.08-84.92-91.50 |
86.75-83.53-90.23 |
85.95-83.10-89.02 |
补充信息
作者
巴塞罗那超级计算中心文本挖掘单元(bsc-temu@bsc.es)
联系方式
plantl-gob-es@bsc.es
版权
西班牙数字化与人工智能国务秘书处(SEDIA)(2022)
许可
Apache 2.0许可证
资助
西班牙数字化与人工智能国务秘书处(SEDIA)Plan-TL计划
引用文献
@misc{carrino2021biomedical,
title={Biomedical and Clinical Language Models for Spanish},
author={Casimiro Pio Carrino et al.},
year={2021},
eprint={2109.03570}
}
免责声明
模型可能存在偏见,使用者需自行承担风险。版权方及创建方不对使用后果负责。完整声明详见原文档。