🚀 西班牙语临床研究命名实体识别模型(roberta-es-clinical-trials-ner)
本医学命名实体识别模型能够从统一医学语言系统(UMLS)(Bodenreider 2004)中检测4种语义组:
- ANAT:身体部位和解剖结构(例如 garganta,即“喉咙”)
- CHEM:化学实体和药理物质(例如 aspirina,即“阿司匹林”)
- DISO:病理状况(例如 dolor,即“疼痛”)
- PROC:诊断和治疗程序、实验室分析以及医学研究活动(例如 cirugía,即“手术”)
该模型在评估集上取得了以下成绩:
- 损失率:0.1580
- 精确率:0.8495
- 召回率:0.8806
- F1值:0.8647
- 准确率:0.9583
✨ 主要特性
📚 详细文档
模型描述
此模型对预训练模型 bsc-bio-ehr-es 进行了调整,该预训练模型在 Pio Carriño 等人(2022) 的研究中被提出。它经过微调,可对西班牙语临床研究文本进行医学命名实体识别。模型的微调基于 CT-EBM-SP 语料库(Campillos-Llanos 等人,2021)。
预期用途与限制
⚠️ 重要提示
本模型正在开发中,有待改进。在没有人工协助和监督的情况下,不得将其用于医疗决策。本模型具有通用用途,但可能存在偏差和/或其他不良扭曲。使用这些模型(或基于这些模型的系统)部署或提供系统和/或服务的第三方应注意,减轻使用风险是他们的责任。无论如何,第三方都需要遵守适用法规,包括有关人工智能使用的法规。模型的所有者或创建者(CSIC - 西班牙科学研究最高理事会)在任何情况下均不对第三方使用这些模型产生的任何结果负责。
训练和评估数据
用于微调的数据是 西班牙语循证医学临床试验语料库。它是一个包含1200篇关于临床试验研究和临床试验公告的文本集合:
- 500篇来自根据知识共享许可发布的期刊摘要,例如可在 PubMed 或科学电子图书馆在线(SciELO)上获取的摘要。
- 700篇发表在欧洲临床试验注册中心和西班牙临床试验存储库中的临床试验公告。
如果您使用此资源,请按以下方式引用:
@article{campillosetal-midm2021,
title = {A clinical trials corpus annotated with UMLS© entities to enhance the access to Evidence-Based Medicine},
author = {Campillos-Llanos, Leonardo and Valverde-Mateos, Ana and Capllonch-Carrión, Adrián and Moreno-Sandoval, Antonio},
journal = {BMC Medical Informatics and Decision Making},
volume={21},
number={1},
pages={1--19},
year={2021},
publisher={BioMed Central}
}
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率:2e-05
- 训练批次大小:16
- 评估批次大小:16
- 随机种子:42
- 优化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型:线性
- 训练轮数:4
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
精确率 |
召回率 |
F1值 |
准确率 |
0.0771 |
1.0 |
785 |
0.1274 |
0.8449 |
0.8797 |
0.8619 |
0.9608 |
0.0415 |
2.0 |
1570 |
0.1356 |
0.8569 |
0.8856 |
0.8710 |
0.9528 |
0.0262 |
3.0 |
2355 |
0.1562 |
0.8619 |
0.8798 |
0.8707 |
0.9526 |
0.0186 |
4.0 |
3140 |
0.1582 |
0.8609 |
0.8846 |
0.8726 |
0.9527 |
各类别结果(测试集)
类别 |
精确率 |
召回率 |
F1值 |
样本数 |
ANAT |
0.7069 |
0.6518 |
0.6783 |
359 |
CHEM |
0.9162 |
0.9228 |
0.9195 |
2929 |
DISO |
0.8805 |
0.8918 |
0.8861 |
3042 |
PROC |
0.8198 |
0.8720 |
0.8450 |
3954 |
框架版本
- Transformers 4.17.0
- Pytorch 1.10.2+cu113
- Datasets 1.18.4
- Tokenizers 0.11.6
环境影响
碳排放使用 Lacoste 等人(2019) 的 机器学习影响计算器 进行估算。通过指定硬件、运行时间、云服务提供商和计算区域来估算碳影响。
- 硬件类型:1个24GB RTX 3090 GPU
- 使用时间:4分钟(0.07小时)
- 计算区域:欧洲,西班牙
- 碳排放(功耗 x 时间 x 基于电网位置产生的碳):0.01千克二氧化碳当量
(碳补偿:0)
资金支持
该模型使用了 NLPMedTerm 项目 的标注数据集创建,该项目由 InterTalentum UAM、玛丽·居里行动 COFUND 资助(2019 - 2021)(H2020 计划,合同编号 713366)以及马德里自治大学知识工程研究所(IIC - UAM)的计算语言学讲座资助。
感谢马德里自治大学(Universidad Autónoma de Madrid)的 计算语言学实验室(LLI) 提供用于微调模型的计算设施。
📄 许可证
署名 - 非商业性使用 4.0 国际许可协议(CC BY 4.0)