library_name: transformers
license: other
license_name: rigoclinical-nc
license_link: https://huggingface.co/IIC/RigoBERTa-Clinical/blob/main/LICENSE
datasets:
- IIC/ClinText-SP
language:
- es
pipeline_tag: fill-mask
RigoBERTa临床版
RigoBERTa临床版是西班牙语临床领域最先进的编码器语言模型,基于当前最大的公开西班牙语临床语料库ClinText-SP通过领域自适应预训练开发而成。该模型在多项临床自然语言处理基准测试中显著提升性能,同时具备强大的临床领域语言理解能力。
模型详情
模型描述
RigoBERTa临床版通过在多轮筛选的临床语料库上对通用模型RigoBERTa 2进行继续预训练构建而成。预训练采用掩码语言建模(MLM)技术,使模型的语言知识适配西班牙语临床领域。
- 开发机构: IIC
- 模型类型: 编码器
- 支持语言: 西班牙语
- 许可协议: rigoclinical-nc(非商业性宽松许可)
- 基础模型: RigoBERTa 2
模型来源
使用范围与限制
适用范围
RigoBERTa临床版专为以下场景设计:
- 西班牙语临床文本理解
- 医疗自然语言处理任务应用,如临床笔记分类、临床文本实体识别及相关下游任务
- 研究开发用途,包括基准测试与模型再适配
局限与注意事项
- 领域特异性: 虽对西班牙语临床文本高度有效,但可能不适用于其他领域或语言
- 数据偏差: ClinText-SP作为当前最大语料库,仍可能因数据来源选择及公开临床数据的固有局限存在偏差
- 部署成本: 虽相比生成式大语言模型具有较低计算成本,在资源受限环境中部署仍需审慎评估
训练详情
训练数据:ClinText-SP
ClinText-SP是最大的西班牙语临床开源语料库,整合多源数据:
- 规模: 约2600万词元,35,996条样本
- 样本特征: 平均每样本约700词元,含完整临床病例与简式医疗文本
- 数据来源: 医学期刊、临床评测任务、放射报告及维基百科摘录
- 获取方式: Hugging Face数据集平台的ClinText-SP
训练流程
预处理
- 分词器: 沿用RigoBERTa 2的分词器确保一致性
- 长文本处理: 超512词元的临床文本采用128词元滑动窗口分割,短文本按需填充
- 生僻词处理: 通过子词分词技术有效处理临床术语
训练参数
- 目标函数: 掩码语言建模(MLM)
- 训练轮次: 2完整轮次(根据下游任务表现,约1.8轮次选择最佳模型)
- 超参数网格:
- 批尺寸: 32/64/128
- 学习率: 批尺寸32对应{5e-6,1e-5,2e-5},64对应{1e-5,2e-5,4e-5},128对应{1e-5,4e-5,8e-5}
- 最优配置: 批尺寸32,学习率2e-5,约2800训练步(约1.8轮次)
- 优化器: AdamW(权重衰减0.1)
- 硬件: 单卡NVIDIA A100 GPU(80GB显存)
性能评估
在命名实体识别(NER)和多标签分类等西班牙语临床NLP任务中,RigoBERTa临床版的F1值与微平均F1指标均超越既往临床及通用西班牙语模型。
核心成果:
- 在cantemist、meddocan、livingner1等数据集上取得最优表现
- 性能持续超越纯临床数据训练的模型,证明领域适应中融合通用领域知识的优势
- 完整基准测试结果与对比详见关联论文
完整结果分析(含多语言基线模型及其他临床专用模型对比)请参阅原论文表1与Nemenyi分布图。

引用规范
若在研究中使用RigoBERTa临床版,请引用关联论文:
BibTeX格式:
@misc{subies2025clintextsprigobertaclinicalnew,
title={ClinText-SP与RigoBERTa临床版:西班牙语临床NLP的新开源资源集},
author={Guillem García Subies and Álvaro Barbero Jiménez and Paloma Martínez Fernández},
year={2025},
eprint={2503.18594},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.18594},
}
APA格式:
Subies, G. G., Barbero Jiménez, Á., & Martínez Fernández, P. (2025). ClinText-SP与RigoBERTa临床版:西班牙语临床NLP的新开源资源集. arXiv. https://arxiv.org/abs/2503.18594
模型卡作者与联系
Guillem García Subies: guillem.garcia@iic.uam.es, 100500844@alumnos.uc3m.es