roberta-es-clinical-trials-umls-7sgs-ner开源模型 - 检测西语临床试验7类实体

首页

Roberta Es Clinical Trials Umls 7sgs Ner

由 medspaner 开发

基于RoBERTa架构的西班牙语医疗命名实体识别模型，可检测临床试验文本中的7类UMLS语义组实体

序列标注

Transformers

#西班牙语医学NER #UMLS实体识别 #临床试验文本分析

下载量 193

发布时间 : 8/8/2022

模型简介

该模型专门用于处理西班牙语临床试验文本，识别包括解剖结构、化学物质、医疗设备、病理状况、生物体、生理过程和医疗程序在内的7类医学实体。

模型特点

UMLS语义组识别

能够识别统一医学语言系统(UMLS)定义的7类语义组实体

西班牙语优化

专门针对西班牙语医疗文本进行训练和优化

临床试验专用

模型在临床试验文本上表现优异，适合处理医学研究相关文档

高精度识别

在测试集上达到0.886的F1值，表现稳定可靠

模型能力

识别医学实体

处理西班牙语文本

分析临床试验文档

提取医疗概念

使用案例

医学研究

临床试验文档分析

自动提取临床试验中的纳入/排除标准、研究对象和治疗方案等关键信息

可帮助研究人员快速理解试验设计

医学文献处理

处理西班牙语医学期刊摘要，提取关键医学概念

提高文献检索和知识提取效率

医疗信息管理

电子病历处理

从西班牙语电子病历中提取结构化医疗信息

支持临床决策和数据分析

🚀 roberta-es-clinical-trials-umls-7sgs-ner

该医学命名实体识别模型可从统一医学语言系统（UMLS） (Bodenreider 2004)中检测7种语义组，为医学文本处理提供支持。

🚀 快速开始

本模型可直接用于检测西班牙语临床文本中的7种语义组实体。以下是一些示例文本：

"Criterios de inclusión: 18 a 65 años; necrosis avascular de cadera; sintomática de menos de 6 meses; capaz de otorgar consentimiento informado. Criterios de exclusión: embarazo, lactancia, mujer fértil sin métodos anticonceptivos adecuados; tratamiento activo con bifosfonatos; infección por VIH, hepatitis B o hepatitis C; historia de neoplasia en cualquier organo."
"Recuperación de daño hepático relacionado con nutrición parenteral con ácidos omega-3 en adultos críticos: ensayo clínico aleatorizado."
"Título público: Análisis del dolor tras inyección intramuscular de penicilina con agujas de mayor calibre y anestésico local, frente a aguja tradicional sin anestésico en pacientes con sífilis"

✨ 主要特性

多语义组检测：能够检测7种UMLS语义组，包括身体部位（ANAT）、化学物质（CHEM）、医疗设备（DEVI）、病理状况（DISO）、生物（LIVB）、生理过程（PHYS）和诊断治疗程序（PROC）。
良好性能表现：在测试集上，模型的准确率达到0.961，F1值为0.886，展现出较好的识别能力。

📚 详细文档

模型描述

本模型基于预训练模型 bsc-bio-ehr-es（Pio Carriño et al. (2022)）进行微调，用于对西班牙语临床试验文本进行医学命名实体识别。微调数据来自 CT-EBM-ES语料库 (Campillos-Llanos et al. 2021)。

如果使用此模型，请按以下方式引用：

@article{campillosetal2024,
        title = {{Hybrid tool for semantic annotation and concept extraction of medical texts in Spanish}},
        author = {Campillos-Llanos, Leonardo and Valverde-Mateos, Ana and Capllonch-Carrión, Adrián},
        journal = {BMC Bioinformatics},
        year={2024},
        publisher={BioMed Central}
}

预期用途与限制

⚠️ 重要提示

本模型正在开发中，需要进一步改进。在没有人工协助和监督的情况下，请勿将其用于医疗决策。

本模型具有通用目的，但可能存在偏差和其他不良扭曲。使用这些模型（或基于这些模型的系统）部署或提供系统和/或服务的第三方应注意，减轻使用风险是他们的责任。无论如何，第三方都需要遵守适用法规，包括有关人工智能使用的法规。模型的所有者或创建者在任何情况下均不对第三方使用这些模型产生的任何结果负责。

训练和评估数据

用于微调的数据是西班牙语循证医学临床试验语料库，它包含1200篇关于临床试验研究和临床试验公告的文本：

500篇来自遵循知识共享许可的期刊摘要，例如可在PubMed或科学电子图书馆在线（SciELO）上获取的摘要。
700篇发表在欧洲临床试验注册中心和西班牙临床试验存储库中的临床试验公告。

如果使用CT-EBM-ES资源，请按以下方式引用：

@article{campillosetal-midm2021,
        title = {A clinical trials corpus annotated with UMLS© entities to enhance the access to Evidence-Based Medicine},
        author = {Campillos-Llanos, Leonardo and Valverde-Mateos, Ana and Capllonch-Carrión, Adrián and Moreno-Sandoval, Antonio},
        journal = {BMC Medical Informatics and Decision Making},
        volume={21},
        number={1},
        pages={1--19},
        year={2021},
        publisher={BioMed Central}
}

训练过程

训练超参数

训练期间使用了以下超参数：

属性	详情
学习率	2e-05
训练批次大小	16
评估批次大小	16
随机种子	在5轮评估中使用不同的种子，并上传结果最佳的模型
优化器	Adam，β=(0.9, 0.999)，ε=1e-08
学习率调度器类型	线性
训练轮数	平均17轮（±2.83）；如果5轮后没有改进则提前停止训练（提前停止耐心值：5）

训练结果（测试集；5轮不同种子的平均值和标准差）

精度	召回率	F1值	准确率
0.878 (±0.003)	0.894 (±0.003)	0.886 (±0.002)	0.961 (±0.001)

各类别结果（测试集；5轮不同种子的平均值和标准差）

类别	精度	召回率	F1值	支持度
ANAT	0.728 (±0.030)	0.686 (±0.030)	0.706 (±0.025)	308
CHEM	0.917 (±0.005)	0.923 (±0.008)	0.920 (±0.005)	2932
DEVI	0.645 (±0.018)	0.791 (±0.047)	0.711 (±0.027)	134
DISO	0.890 (±0.008)	0.903 (±0.003)	0.896 (±0.003)	3065
LIVB	0.949 (±0.004)	0.959 (±0.006)	0.954 (±0.003)	1685
PHYS	0.766 (±0.021)	0.765 (±0.012)	0.765 (±0.008)	308
PROC	0.842 (±0.002)	0.871 (±0.004)	0.856 (±0.001)	4154