🚀 medBERT.de:适用于医疗领域的全面德语BERT模型
medBERT.de 是一个基于BERT架构的德语医疗自然语言处理模型,它在大量的医疗文本、临床笔记、研究论文和医疗相关文档数据集上进行了专门的训练和微调。该模型旨在执行医疗领域的各种自然语言处理任务,如医疗信息提取、诊断预测等。
🚀 快速开始
medBERT.de 为德语医疗自然语言处理提供了强大的支持。你可以基于它开展医疗信息提取、诊断预测等多种任务。
✨ 主要特性
- 基于标准BERT架构,能够有效捕捉输入文本的上下文信息。
- 在多样化的医疗数据集上进行微调,适用于多种医疗自然语言处理任务。
- 拥有专门为德语医疗语言优化的分词器。
📦 安装指南
文档未提及安装步骤,故跳过该部分内容。
💻 使用示例
文档未提供代码示例,故跳过该部分内容。
📚 详细文档
模型详情
架构
medBERT.de 基于标准的BERT架构,如原始BERT论文(Devlin等人的 “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”)中所述。该模型采用了多层双向Transformer编码器,使其能够从输入文本的左右两个方向捕捉上下文信息。medBERT.de 有12层,每层有768个隐藏单元,每层有8个注意力头,并且可以在单个输入序列中处理最多512个标记。
训练数据
medBERT.de 在大量的医疗文本、临床笔记、研究论文和医疗相关文档数据集上进行了微调。这个多样化的数据集确保了模型熟悉各种医疗子领域,并能够处理广泛的医疗自然语言处理任务。
以下表格概述了用于预训练 medBERT.de 的数据来源:
属性 |
详情 |
模型类型 |
基于标准BERT架构的德语医疗自然语言处理模型 |
训练数据 |
包括DocCheck Flexikon、GGPOnc 1.0、Webcrawl、PubMed摘要、放射学报告、Springer Nature、电子健康记录、博士论文、Thieme Publishing Group、Wikipedia等来源的医疗文本、临床笔记、研究论文和医疗相关文档。所有训练数据都经过了完全匿名化处理,去除了所有患者上下文信息。 |
来源 |
文档数量 |
句子数量 |
单词数量 |
大小 (MB) |
DocCheck Flexikon |
63,840 |
720,404 |
12,299,257 |
92 |
GGPOnc 1.0 |
4,369 |
66,256 |
1,194,345 |
10 |
Webcrawl |
11,322 |
635,806 |
9,323,774 |
65 |
PubMed abstracts |
12,139 |
108,936 |
1,983,752 |
16 |
Radiology reports |
3,657,801 |
60,839,123 |
520,717,615 |
4,195 |
Spinger Nature |
257,999 |
14,183,396 |
259,284,884 |
1,986 |
Electronic health records |
373,421 |
4,603,461 |
69,639,020 |
440 |
Doctoral theses |
7,486 |
4,665,850 |
90,380,880 |
648 |
Thieme Publishing Group |
330,994 |
10,445,580 |
186,200,935 |
2,898 |
Wikipedia |
3,639 |
161,714 |
2,799,787 |
22 |
总计 |
4,723,010 |
96,430,526 |
1,153,824,249 |
10,372 |
预处理
输入文本使用WordPiece分词技术进行预处理,该技术将文本拆分为子词单元,以更好地捕捉罕见或未登录词。我们保留了大小写格式,并且没有从文本中删除特殊字符。medBERT.de 自带专门为德语医疗语言优化的分词器。
性能指标
我们在各种下游任务上对 medBERT.de 进行了微调,并将其与德语医疗领域的其他先进BERT模型进行了比较。以下是基于放射学报告的分类任务的一些示例结果。更多详细结果请参考我们的论文。
模型 |
AUROC |
宏F1 |
微F1 |
精确率 |
召回率 |
胸部CT |
|
|
|
|
|
GottBERT |
92.48 |
69.06 |
83.98 |
76.55 |
65.92 |
BioGottBERT |
92.71 |
69.42 |
83.41 |
80.67 |
65.52 |
多语言BERT |
91.90 |
66.31 |
80.86 |
68.37 |
65.82 |
German - MedBERT |
92.48 |
66.40 |
81.41 |
72.77 |
62.37 |
medBERT.de |
96.69 |
81.46 |
89.39 |
87.88 |
78.77 |
medBERT.dededup |
96.39 |
78.77 |
89.24 |
84.29 |
76.01 |
胸部X光 |
|
|
|
|
|
GottBERT |
83.18 |
64.86 |
74.18 |
59.67 |
78.87 |
BioGottBERT |
83.48 |
64.18 |
74.87 |
59.04 |
78.90 |
多语言BERT |
82.43 |
63.23 |
73.92 |
56.67 |
75.33 |
German - MedBERT |
83.22 |
63.13 |
75.39 |
55.66 |
78.03 |
medBERT.de |
84.65 |
67.06 |
76.20 |
60.44 |
83.08 |
medBERT.dededup |
84.42 |
66.92 |
76.26 |
60.31 |
82.99 |
公平性和偏差
地理偏差
由于很大一部分临床数据来自德国柏林的一家医院,该模型可能会偏向于该特定地区流行的医疗实践、术语和疾病。当应用于具有不同医疗系统和患者群体的其他地区或国家时,这可能会导致性能和公平性下降。
人口统计学偏差
柏林医院的患者群体可能不能代表更广泛的德国或全球人口。年龄、性别、种族和社会经济地位的差异可能会导致模型在预测和理解某些特定人口群体中更常见的医疗状况、症状或治疗方法时出现偏差。
专业领域偏差
大部分训练数据由放射学报告组成,这可能会使模型偏向于放射学中使用的语言和概念。这可能会导致对训练数据中代表性不足的其他医学专业或子领域的理解不够准确。
安全和隐私
数据隐私
为了确保在 medBERT.de 的训练和使用过程中的数据隐私,我们采取了以下措施:
- 匿名化:用于训练模型的所有临床数据都经过了彻底的匿名化处理,去除了患者姓名和其他个人身份信息(PII),以保护患者隐私。尽管一些数据源,如DocCheck,可能包含著名医生或在DocCheck平台上发表演讲的个人的姓名,但这些实例与患者数据无关,不应构成重大隐私风险。然而,有可能从模型中提取这些姓名。
- 所有训练数据都安全存储,不会公开访问。不过,我们将提供一些用于医疗基准测试的训练数据。
模型安全
MedBERT在设计时考虑了安全因素,以尽量减少与对抗性攻击和信息泄露相关的风险。我们对模型进行了信息泄露测试,未发现数据泄露的证据。然而,与任何机器学习模型一样,无法保证对潜在攻击的完全安全。
局限性
- 泛化能力:medBERT.de 可能难以处理训练数据集中未包含的医学术语或概念,特别是新的或罕见的疾病、治疗方法和程序。
- 语言偏差:medBERT.de 主要在德语数据上进行训练,对于非德语语言或多语言环境,其性能可能会显著下降。
- 上下文误解:medBERT.de 偶尔可能会误解文本的上下文,导致预测错误或提取的信息不准确。
- 信息验证能力:medBERT.de 无法验证其处理的信息的准确性,因此不适合需要严格数据验证的任务。
- 法律和伦理考虑:该模型不应用于做出或参与医疗决策,仅应用于研究目的。
使用条款
通过从Hugging Face Hub下载和使用MedBERT模型,您同意遵守以下条款和条件:
- 目的和范围:MedBERT模型仅用于研究和信息目的,不得作为做出医疗决策或诊断患者的唯一依据。该模型应作为专业医疗建议和临床判断的补充工具使用。
- 正确使用:用户同意以负责任的方式使用MedBERT,遵守所有适用的法律、法规和道德准则。该模型不得用于任何非法、有害或恶意目的,不得用于临床决策和患者治疗。
- 数据隐私和安全:用户负责确保使用MedBERT模型处理的任何敏感或机密数据的隐私和安全。个人身份信息(PII)在由模型处理之前应进行匿名化处理,用户必须采取适当措施保护数据隐私。
- 禁止活动:严格禁止用户尝试进行对抗性攻击、信息检索或任何可能损害MedBERT模型安全和完整性的其他操作。违规者可能会面临法律后果,并可能导致模型发布被撤回。
法律免责声明
使用 medBERT.de 即表示您同意不尝试对模型进行对抗性攻击或信息检索。此类活动严格禁止,构成违反使用条款的行为。违规者可能会面临法律后果,任何发现的违规行为可能会导致模型发布立即撤回。继续使用 medBERT.de 即表示您承认并接受遵守这些条款和条件的责任。
🔧 技术细节
文档中关于技术细节的内容已在前面详细文档部分体现,此处不再重复。
📄 许可证
本项目采用Apache - 2.0许可证。
📖 引用
@article{medbertde,
title={MEDBERT.de: A Comprehensive German BERT Model for the Medical Domain},
author={Keno K. Bressem and Jens-Michalis Papaioannou and Paul Grundmann and Florian Borchert and Lisa C. Adams and Leonhard Liu and Felix Busch and Lina Xu and Jan P. Loyen and Stefan M. Niehues and Moritz Augustin and Lennart Grosser and Marcus R. Makowski and Hugo JWL. Aerts and Alexander Löser},
journal={arXiv preprint arXiv:2303.08179},
year={2023},
url={https://doi.org/10.48550/arXiv.2303.08179},
note={Keno K. Bressem and Jens-Michalis Papaioannou and Paul Grundmann contributed equally},
subject={Computation and Language (cs.CL); Artificial Intelligence (cs.AI)},
}