语言:
- 西班牙语
标签:
- 生物医学
- 临床
- 电子健康记录
- 西班牙语
许可证: Apache-2.0
数据集:
- "PlanTL-GOB-ES/pharmaconer"
评估指标:
- F1值
模型索引:
- 名称: PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer
结果:
- 任务:
类型: 标记分类
数据集:
名称: pharmaconer
类型: PlanTL-GOB-ES/pharmaconer
评估指标:
- 名称: F1值
类型: F1
值: 0.8913
小部件:
- 文本: "进行了分析研究,显示PTH和维生素D水平升高(分别为103.7 pg/ml和272 ng/ml),归因于维生素D补充过量。"
- 文本: "由于发现多处应力性骨折,我们在门诊进行了研究,进行了肾功能、血清和尿液钙、离子钙、镁和PTH的检测,结果均正常。"
- 文本: "要求进行包括血常规、生化、抗核抗体(ANA)和血清学检查、尿液检查以及病变活检在内的化验。结果正常,ANA、抗Sm、抗RNP、抗SSA、抗SSB、抗Jo1和抗Scl70均为阴性。"
针对PharmaCoNER数据集进行命名实体识别(NER)任务微调的西班牙语RoBERTa-base生物医学模型
目录
点击展开
模型描述
这是bsc-bio-ehr-es模型的微调版本,基于RoBERTa基础模型,并使用迄今为止已知最大的西班牙语生物医学语料库进行预训练,该语料库由生物医学文档、临床病例和电子健康记录(EHR)文档组成,总计11亿个经过清理和去重的标记文本。
有关语料库和训练的更多详情,请参阅_bsc-bio-ehr-es_模型卡。
预期用途与限制
使用方法
限制与偏差
在提交时,尚未采取措施评估模型中潜在的偏差。然而,我们清楚地意识到,由于语料库是通过网络爬虫技术从多个来源收集的,模型可能存在偏差。我们计划未来在这些领域进行研究,如完成相关研究,本模型卡将相应更新。
训练
使用的数据集是PharmaCoNER,一个标注了物质、化合物和蛋白质实体的NER数据集。更多信息请访问官方网站。
评估
F1值: 0.8913
评估详情请访问我们的GitHub仓库。
附加信息
作者
巴塞罗那超级计算中心文本挖掘单元(TeMU)(bsc-temu@bsc.es)
联系信息
如需更多信息,请发送邮件至plantl-gob-es@bsc.es
版权
版权归西班牙数字化与人工智能国务秘书处(SEDIA)所有(2022年)
许可信息
Apache许可证,版本2.0
资助
本工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助。
引用信息
如果您使用这些模型,请引用我们的工作:
@inproceedings{carrino-etal-2022-pretrained,
title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
author = "Carrino, Casimiro Pio and
Llop, Joan and
P{\`a}mies, Marc and
Guti{\'e}rrez-Fandi{\~n}o, Asier and
Armengol-Estap{\'e}, Jordi and
Silveira-Ocampo, Joaqu{\'\i}n and
Valencia, Alfonso and
Gonzalez-Agirre, Aitor and
Villegas, Marta",
booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.bionlp-1.19",
doi = "10.18653/v1/2022.bionlp-1.19",
pages = "193--199",
abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}
免责声明
本仓库发布的模型旨在满足通用目的,并向第三方提供。这些模型可能存在偏差和/或其他不希望的失真。
当第三方部署或向其他方提供使用这些模型(或基于这些模型的系统)的系统及服务,或成为这些模型的用户时,应注意他们有责任减轻使用过程中产生的风险,并无论如何遵守适用的法规,包括关于使用人工智能的法规。
在任何情况下,模型的所有者(SEDIA – 西班牙数字化与人工智能国务秘书处)或创建者(BSC – 巴塞罗那超级计算中心)均不对第三方使用这些模型所产生的结果负责。
The models published in this repository are intended for a generalist purpose and are available to third parties. These models may have bias and/or any other undesirable distortions.
When third parties deploy or provide systems and/or services to other parties using any of these models (or using systems based on these models) or become users of the models, they should note that it is their responsibility to mitigate the risks arising from their use and, in any event, to comply with applicable regulations, including regulations regarding the use of artificial intelligence.
In no event shall the owner of the models (SEDIA – State Secretariat for digitalization and artificial intelligence) nor the creator (BSC – Barcelona Supercomputing Center) be liable for any results arising from the use made by third parties of these models.