🚀 roberta-es-clinical-trials-umls-7sgs-ner
该医学命名实体识别模型可从统一医学语言系统(UMLS) (Bodenreider 2004)中检测7种语义组,为医学文本处理提供支持。
🚀 快速开始
本模型可直接用于检测西班牙语临床文本中的7种语义组实体。以下是一些示例文本:
- "Criterios de inclusión: 18 a 65 años; necrosis avascular de cadera; sintomática de menos de 6 meses; capaz de otorgar consentimiento informado.
Criterios de exclusión: embarazo, lactancia, mujer fértil sin métodos anticonceptivos adecuados; tratamiento activo con bifosfonatos; infección por VIH, hepatitis B o hepatitis C; historia de neoplasia en cualquier organo."
- "Recuperación de daño hepático relacionado con nutrición parenteral con ácidos omega-3 en adultos críticos: ensayo clínico aleatorizado."
- "Título público: Análisis del dolor tras inyección intramuscular de penicilina con agujas de mayor calibre y anestésico local, frente a aguja tradicional sin anestésico en pacientes con sífilis"
✨ 主要特性
- 多语义组检测:能够检测7种UMLS语义组,包括身体部位(ANAT)、化学物质(CHEM)、医疗设备(DEVI)、病理状况(DISO)、生物(LIVB)、生理过程(PHYS)和诊断治疗程序(PROC)。
- 良好性能表现:在测试集上,模型的准确率达到0.961,F1值为0.886,展现出较好的识别能力。
📚 详细文档
模型描述
本模型基于预训练模型 bsc-bio-ehr-es(Pio Carriño et al. (2022))进行微调,用于对西班牙语临床试验文本进行医学命名实体识别。微调数据来自 CT-EBM-ES语料库 (Campillos-Llanos et al. 2021)。
如果使用此模型,请按以下方式引用:
@article{campillosetal2024,
title = {{Hybrid tool for semantic annotation and concept extraction of medical texts in Spanish}},
author = {Campillos-Llanos, Leonardo and Valverde-Mateos, Ana and Capllonch-Carrión, Adrián},
journal = {BMC Bioinformatics},
year={2024},
publisher={BioMed Central}
}
预期用途与限制
⚠️ 重要提示
本模型正在开发中,需要进一步改进。在没有人工协助和监督的情况下,请勿将其用于医疗决策。
本模型具有通用目的,但可能存在偏差和其他不良扭曲。使用这些模型(或基于这些模型的系统)部署或提供系统和/或服务的第三方应注意,减轻使用风险是他们的责任。无论如何,第三方都需要遵守适用法规,包括有关人工智能使用的法规。模型的所有者或创建者在任何情况下均不对第三方使用这些模型产生的任何结果负责。
训练和评估数据
用于微调的数据是 西班牙语循证医学临床试验语料库,它包含1200篇关于临床试验研究和临床试验公告的文本:
- 500篇来自遵循知识共享许可的期刊摘要,例如可在PubMed或科学电子图书馆在线(SciELO)上获取的摘要。
- 700篇发表在欧洲临床试验注册中心和西班牙临床试验存储库中的临床试验公告。
如果使用CT-EBM-ES资源,请按以下方式引用:
@article{campillosetal-midm2021,
title = {A clinical trials corpus annotated with UMLS© entities to enhance the access to Evidence-Based Medicine},
author = {Campillos-Llanos, Leonardo and Valverde-Mateos, Ana and Capllonch-Carrión, Adrián and Moreno-Sandoval, Antonio},
journal = {BMC Medical Informatics and Decision Making},
volume={21},
number={1},
pages={1--19},
year={2021},
publisher={BioMed Central}
}
训练过程
训练超参数
训练期间使用了以下超参数:
属性 |
详情 |
学习率 |
2e-05 |
训练批次大小 |
16 |
评估批次大小 |
16 |
随机种子 |
在5轮评估中使用不同的种子,并上传结果最佳的模型 |
优化器 |
Adam,β=(0.9, 0.999),ε=1e-08 |
学习率调度器类型 |
线性 |
训练轮数 |
平均17轮(±2.83);如果5轮后没有改进则提前停止训练(提前停止耐心值:5) |
训练结果(测试集;5轮不同种子的平均值和标准差)
精度 |
召回率 |
F1值 |
准确率 |
0.878 (±0.003) |
0.894 (±0.003) |
0.886 (±0.002) |
0.961 (±0.001) |
各类别结果(测试集;5轮不同种子的平均值和标准差)
类别 |
精度 |
召回率 |
F1值 |
支持度 |
ANAT |
0.728 (±0.030) |
0.686 (±0.030) |
0.706 (±0.025) |
308 |
CHEM |
0.917 (±0.005) |
0.923 (±0.008) |
0.920 (±0.005) |
2932 |
DEVI |
0.645 (±0.018) |
0.791 (±0.047) |
0.711 (±0.027) |
134 |
DISO |
0.890 (±0.008) |
0.903 (±0.003) |
0.896 (±0.003) |
3065 |
LIVB |
0.949 (±0.004) |
0.959 (±0.006) |
0.954 (±0.003) |
1685 |
PHYS |
0.766 (±0.021) |
0.765 (±0.012) |
0.765 (±0.008) |
308 |
PROC |
0.842 (±0.002) |
0.871 (±0.004) |
0.856 (±0.001) |
4154 |
框架版本
- Transformers 4.17.0
- Pytorch 1.10.2+cu113
- Datasets 1.18.4
- Tokenizers 0.11.6
📄 许可证
本模型采用CC BY-NC 4.0许可证。