medialbertina_pt-pt_900m开源医疗语言模型 - 利用欧洲葡语数据助力医疗应用

首页

Medialbertina Pt Pt 900m

由 portugueseNLP 开发

首个基于真实欧洲葡萄牙语数据训练的可公开获取医疗语言模型

大型语言模型

Transformers

其他开源协议:MIT #葡萄牙医疗NLP #临床电子病历分析 #欧洲葡语医学模型

下载量 70

发布时间 : 3/12/2024

模型简介

基于DeBERTaV2架构的Bert系列编码器，专门针对欧洲葡萄牙语医疗领域优化的语言模型，通过对Albertina模型进行电子病历数据的继续预训练而得

模型特点

医疗领域专业化

基于葡萄牙最大公立医院260万份电子病历训练，专门针对医疗领域优化

欧洲葡萄牙语支持

专注于欧洲葡萄牙语变体，特别是医疗场景下的语言使用

性能提升

在命名实体识别和断言状态分类任务上超越基础模型，F1分数提升显著

大规模训练数据

使用超过1500万句子和3亿词元的真实医疗数据进行训练

模型能力

医疗文本理解

临床实体识别

医疗术语填充

电子病历处理

使用案例

临床信息抽取

症状识别

从临床文本中识别症状描述

F1分数0.832（NER任务）

药物剂量识别

识别处方中的药物和剂量信息

可准确填充药物剂量单位

医疗文本补全

临床记录补全

自动补全不完整的临床记录

如示例中所示可准确预测医疗术语

🚀 MediAlbertina

MediAlbertina是首个使用真实欧洲葡萄牙语数据训练的公开可用医学语言模型。它基于DeBERTaV2架构，是Bert家族的编码器，通过对PORTULAN的Albertina模型进行持续预训练，并结合葡萄牙最大公立医院共享的电子病历数据而得到。

🚀 快速开始

MediAlbertina模型可用于医学领域的信息提取任务，如命名实体识别（NER）和断言状态（AStatus）。以下是使用该模型进行掩码填充的示例代码：

from transformers import pipeline

unmasker = pipeline('fill-mask', model='portugueseNLP/medialbertina_pt-pt_900m')
unmasker("Analgesia com morfina em perfusão (15 [MASK]/kg/h)")

✨ 主要特性

领域适配：MediAlbertina PT - PT 900M通过掩码语言建模，在真实的欧洲葡萄牙语电子病历上对Albertina PT - PT 900M进行领域适配。
性能优越：在信息提取任务（NER和AStatus）上，MediAlbertina取得了比其前身更优的结果，展示了领域适配的有效性以及在葡萄牙医学人工智能领域的潜力。

📚 详细文档

模型描述

MediAlbertina PT - PT 900M在超过1500万句话和3亿个标记上进行训练，这些数据来自葡萄牙最大公立医院的260万份完全匿名且唯一的电子病历（EMRs）。该数据是在FCT项目DSAIPA/AI/0122/2020 AIMHealth - 基于人工智能的移动健康应用的框架下获取的。

模型在信息提取（IE）任务中的性能表现如下：

模型	单模型NER F1分数	多模型NER F1分数	断言状态F1分数
albertina - 900m - portuguese - ptpt - encoder	0.813	0.811	0.687
medialbertina_pt - pt_900m	0.832	0.848	0.755

数据

MediAlbertina PT - PT 900M的训练数据来自葡萄牙最大公立医院的电子病历，包含超过1500万句话和3亿个标记，这些数据已完全匿名化。

引用

MediAlbertina由来自葡萄牙[ISCTE - IUL](https://www.iscte - iul.pt/)和美国加利福尼亚州Select Data的联合团队开发。如需详细描述，请查阅相关出版物：

@article{MediAlbertina PT-PT,
      title={MediAlbertina: An European Portuguese medical language model}, 
      author={Miguel Nunes and João Boné and João Ferreira
              and Pedro Chaves and Luís Elvas},
      year={2024},
      journal={CBM},
      volume={182}
      url={https://doi.org/10.1016/j.compbiomed.2024.109233}
}

在使用或引用此模型时，请使用上述规范引用。

致谢

这项工作得到了“Blockchain.PT – Decentralize Portugal with Blockchain Agenda”项目（项目编号51，WP2，Call no 02/C05 - i01.01/2022）的资助，该项目由葡萄牙复苏与韧性计划（PRR）、葡萄牙共和国和欧盟在下一代欧盟计划框架下提供资金支持。