license: apache-2.0
language:
medBERT.de:面向医疗领域的综合性德语BERT模型
medBERT.de 是基于BERT架构的德语医学自然语言处理模型,专门针对大量医学文本、临床记录、研究论文和医疗相关文档进行了微调训练。该模型设计用于执行医疗领域的多种NLP任务,如医学信息提取、诊断预测等。
模型详情:
架构
medBERT.de 基于标准BERT架构(参见Devlin等人的原始论文《BERT:用于语言理解的深度双向Transformer预训练》)。
该模型采用多层双向Transformer编码器,能够从输入文本的左右两个方向捕获上下文信息。
medBERT.de 包含12层网络,每层768个隐藏单元,每层8个注意力头,单次输入序列最多可处理512个标记。
训练数据:
medBERT.de 在大量医学文本、临床记录、研究论文和医疗相关文档上进行了微调。这种多样化的数据集确保模型精通各类医学子领域,能处理广泛的医学NLP任务。
下表概述了用于预训练medBERT.de的数据来源:
数据源 |
文档数 |
句子数 |
词数 |
大小(MB) |
DocCheck Flexikon |
63,840 |
720,404 |
12,299,257 |
92 |
GGPOnc 1.0 |
4,369 |
66,256 |
1,194,345 |
10 |
网络爬虫 |
11,322 |
635,806 |
9,323,774 |
65 |
PubMed摘要 |
12,139 |
108,936 |
1,983,752 |
16 |
放射学报告 |
3,657,801 |
60,839,123 |
520,717,615 |
4,195 |
Springer Nature |
257,999 |
14,183,396 |
259,284,884 |
1,986 |
电子健康记录 |
373,421 |
4,603,461 |
69,639,020 |
440 |
博士论文 |
7,486 |
4,665,850 |
90,380,880 |
648 |
Thieme出版集团 |
330,994 |
10,445,580 |
186,200,935 |
2,898 |
维基百科 |
3,639 |
161,714 |
2,799,787 |
22 |
--------------------------- |
---------- |
------------- |
--------------- |
--------- |
总计 |
4,723,010 |
96,430,526 |
1,153,824,249 |
10,372 |
所有训练数据均经过完全匿名化处理,患者相关上下文信息已全部移除。
预处理:
输入文本采用WordPiece分词技术进行预处理,将文本分解为子词单元以更好捕捉罕见词或词汇表外词。我们保留了原始大小写格式且未移除特殊字符。
medBERT.de 配备了专为德语医疗语言优化的定制分词器。
性能指标:
我们在多项下游任务上对medBERT.de进行微调,并与德语医疗领域其他最先进的BERT模型进行比较。
以下是基于放射学报告的分类任务示例结果,更详细结果请参阅我们的论文。
模型 |
AUROC |
宏F1 |
微F1 |
精确率 |
召回率 |
胸部CT |
|
|
|
|
|
GottBERT |
92.48 |
69.06 |
83.98 |
76.55 |
65.92 |
BioGottBERT |
92.71 |
69.42 |
83.41 |
80.67 |
65.52 |
多语言BERT |
91.90 |
66.31 |
80.86 |
68.37 |
65.82 |
German-MedBERT |
92.48 |
66.40 |
81.41 |
72.77 |
62.37 |
medBERT.de |
96.69 |
81.46 |
89.39 |
87.88 |
78.77 |
medBERT.de去重 |
96.39 |
78.77 |
89.24 |
84.29 |
76.01 |
胸部X光 |
|
|
|
|
|
GottBERT |
83.18 |
64.86 |
74.18 |
59.67 |
78.87 |
BioGottBERT |
83.48 |
64.18 |
74.87 |
59.04 |
78.90 |
多语言BERT |
82.43 |
63.23 |
73.92 |
56.67 |
75.33 |
German-MedBERT |
83.22 |
63.13 |
75.39 |
55.66 |
78.03 |
medBERT.de |
84.65 |
67.06 |
76.20 |
60.44 |
83.08 |
medBERT.de去重 |
84.42 |
66.92 |
76.26 |
60.31 |
82.99 |
公平性与偏差
MedBERT训练数据存在若干潜在偏差,可能影响模型性能和公平性:
地域偏差
由于大部分临床数据来自德国柏林某单一医院,模型可能偏向该地区特定的医疗实践、术语和疾病特征。当应用于其他地区或不同医疗体系时,其性能和公平性可能降低。
人口统计学偏差
柏林医院的患者群体可能无法代表德国或全球整体人口。年龄、性别、种族和社会经济地位的差异可能导致模型对特定人群常见病症的理解出现偏差。
专科偏差
训练数据中大量放射学报告可能导致模型过度偏向放射科专用语言和概念,对其他医学专科或子领域的理解准确性可能不足。
安全与隐私
数据隐私
为确保medBERT.de训练和使用过程中的数据隐私,我们采取了以下措施:
匿名化处理:所有临床训练数据均经过彻底匿名化,患者姓名等个人身份信息(PII)已移除。虽然部分数据源(如DocCheck)可能包含知名医师姓名,但这些信息与患者数据无关,隐私风险较低。但需注意模型可能提取这些姓名。
所有训练数据均安全存储且不公开。但部分医学基准测试数据将可供使用。
模型安全
MedBERT在设计时已考虑安全因素,以最小化对抗攻击和信息泄露风险。
我们测试了模型的信息泄露情况,未发现证据。但与其他机器学习模型类似,无法完全保证抵御所有潜在攻击。
局限性
泛化能力:medBERT.de可能难以处理训练数据未涵盖的医学术语或概念,尤其是新发或罕见疾病。
语言偏差:模型主要基于德语数据训练,对非德语或多语言场景的性能可能显著下降。
上下文误解:偶尔可能误解文本上下文,导致错误预测。
信息验证缺失:无法验证处理信息的准确性,不适用于需要数据验证的关键任务。
法律与伦理限制:该模型不得用于医疗决策,仅限研究用途。
使用条款
通过下载和使用Hugging Face Hub上的MedBERT模型,您同意遵守以下条款:
用途范围:MedBERT模型仅限研究和信息用途,不得作为医疗决策或诊断的唯一依据。模型应作为专业医疗建议的辅助工具使用。
合规使用:用户需以负责任的方式使用模型,遵守所有适用法律、法规和伦理准则。禁止用于任何非法、有害或恶意目的。禁止用于临床决策和患者治疗。
数据隐私:用户需确保使用MedBERT处理敏感数据时的隐私安全。个人身份信息(PII)应在处理前进行匿名化,并采取适当保护措施。
禁止行为:严禁对模型进行对抗攻击、信息提取等危害安全性的操作。违规者将承担法律后果并可能导致模型撤回。
法律免责声明
使用medBERT.de即表示您同意不进行任何对抗攻击或信息提取行为。此类行为严格禁止并构成违约。违规者将面临法律后果,且可能导致模型立即撤回。
引用
@article{medbertde,
title={MEDBERT.de: 面向医疗领域的综合性德语BERT模型},
author={Keno K. Bressem, Jens-Michalis Papaioannou, Paul Grundmann等},
journal={arXiv预印本 arXiv:2303.08179},
year={2023},
url={https://doi.org/10.48550/arXiv.2303.08179},
note={Keno K. Bressem, Jens-Michalis Papaioannou, Paul Grundmann贡献均等},
subject={计算与语言(cs.CL); 人工智能(cs.AI)},
}