许可证: mit
语言:
任务标签: 填充掩码
标签:
- 葡萄牙医疗版Albertina
- DeBERTa模型
- 葡萄牙语
- 欧洲葡萄牙语
- 医疗
- 临床
- 医疗保健
- 编码器
示例:
- 文本: "发烧和咳嗽是[MASK]的常见症状"
示例标题: "示例1"
- 文本: "糖尿病[MASK]II型"
示例标题: "示例2"
- 文本: "患者耐受[MASK]饮食/血糖水平良好"
示例标题: "示例3"
- 文本: "患者正在接受[MASK]与曲马多联合给药"
示例标题: "示例4"
- 文本: "因出现[MASK]鼓音放置胃管"
示例标题: "示例5"
- 文本: "连接PRVC模式需将[MASK]提升至70%"
示例标题: "示例6"
- 文本: "隔日使用[MASK]进行药物治疗"
示例标题: "示例7"
- 文本: "对患者进行[MASK]检测"
示例标题: "示例8"
- 文本: "症状指向COVID[MASK]"
示例标题: "示例9"
- 文本: "住院期间每日3次使用新鲜冷冻[MASK]"
示例标题: "示例10"
- 文本: "瞳孔等[MASK]"
示例标题: "示例11"
- 文本: "[MASK]性心脏病-可能病因:高血压"
示例标题: "示例12"
- 文本: "患者处于[MASK]稳定状态"
示例标题: "示例13"
- 文本: "交通事故后[MASK]性创伤"
示例标题: "示例14"
- 文本: "吗啡持续输注镇痛(15[MASK]/kg/h)"
示例标题: "示例15"
医疗版Albertina
首个基于真实欧洲葡萄牙语数据训练的可公开获取医疗语言模型。
医疗版Albertina是基于DeBERTaV2架构的Bert系列编码器,通过对PORTULAN的Albertina模型进行葡萄牙最大公立医院电子病历数据的继续预训练而得。
与前代模型相同,医疗版Albertina采用MIT许可协议分发。
模型描述
医疗版Albertina PT-PT 900M通过掩码语言建模技术,在Albertina PT-PT 900M基础上进行欧洲葡萄牙语电子病历的领域适应训练。该模型在超过1万条人工标注实体的信息抽取任务(包括命名实体识别和断言状态分类)中完成评估,涵盖诊断、症状、生命体征、检查结果、医疗程序、药物、剂量和病程等类别。在两项任务中均超越前代模型,证明了领域适应的有效性及其在葡萄牙医疗AI领域的潜力。
模型 |
单模型NER |
多模型NER |
断言状态分类 |
|
F1分数 |
F1分数 |
F1分数 |
albertina-900m-portuguese-ptpt-encoder |
0.813 |
0.811 |
0.687 |
medialbertina_pt-pt_900m |
0.832 |
0.848 |
0.755 |
训练数据
基于葡萄牙最大公立医院260万份完全匿名化的独特电子病历,包含超过1500万句子和3亿词元。数据获取自FCT项目DSAIPA/AI/0122/2020 AIMHealth框架。
使用方式
from transformers import pipeline
unmasker = pipeline('fill-mask', model='portugueseNLP/medialbertina_pt-pt_900m')
unmasker("吗啡持续输注镇痛(15 [MASK]/kg/h)")
文献引用
由ISCTE-IUL与Select Data联合开发团队完成,详见出版物:
@article{MediAlbertina PT-PT,
title={MediAlbertina: 欧洲葡萄牙语医疗语言模型},
author={Miguel Nunes等},
year={2024},
journal={CBM},
volume={182},
url={https://doi.org/10.1016/j.compbiomed.2024.109233}
}
引用请使用期刊链接的规范格式。
致谢
本研究获"Blockchain.PT"项目资助(项目编号51,WP2,招标号02/C05-i01.01/2022),资金来源于葡萄牙复苏与韧性计划(PRR)、葡萄牙共和国及欧盟(EU)下一代欧盟计划框架。