language: zh
tags:
- exbert
license: mit
widget:
- text: "左侧胸腔积液伴邻近[MASK]。"
example_title: "放射学案例1"
- text: "心影大小正常,双肺[MASK]。"
example_title: "放射学案例2"
- text: "[MASK]是一种抑癌基因。"
example_title: "生物医学"
- text: "患者因慢性心房颤动服用[MASK]"
example_title: "药物治疗"
CXR-BERT通用模型
CXR-BERT是针对胸部X光(CXR)领域开发的专用语言模型,通过改进词表、创新预训练流程、权重正则化和文本增强技术实现。该模型在放射学自然语言推理、掩码语言模型标记预测,以及视觉-语言下游任务(如零样本短语定位和图像分类)中展现出卓越性能。
我们首先通过掩码语言建模(MLM)任务,在PubMed摘要和公开的MIMIC-III、MIMIC-CXR临床笔记上,从随机初始化的BERT模型预训练得到CXR-BERT通用版。因此该通用模型经过领域微调后,可适用于胸部放射学之外的其他临床研究领域。
CXR-BERT专业版在通用版基础上持续预训练,进一步专精于胸部X光领域。最终阶段采用类似CLIP框架的多模态对比学习,利用[CLS]标记的潜在表征实现文本-图像嵌入对齐。
模型变体
文献引用
相关论文已被欧洲计算机视觉会议(ECCV 2022)接收
@misc{https://doi.org/10.48550/arxiv.2204.09817,
doi = {10.48550/ARXIV.2204.09817},
url = {https://arxiv.org/abs/2204.09817},
author = {Boecking, Benedikt and Usuyama, Naoto and Bannur, Shruthi and Castro, Daniel C. and Schwaighofer, Anton and Hyland, Stephanie and Wetscherek, Maria and Naumann, Tristan and Nori, Aditya and Alvarez-Valle, Javier and Poon, Hoifung and Oktay, Ozan},
title = {Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing},
publisher = {arXiv},
year = {2022},
}
使用说明
适用范围
本模型仅限用于:(I) 视觉-语言处理领域的后续研究;(II) 重现参考文献报告的实验结果。
主要用途
支持AI研究人员基于本成果开展研究。CXR-BERT及其衍生模型尤其适用于探索放射学领域的临床NLP与VLP研究课题。
非适用范围
目前任何商业或非商业的部署应用均超出使用范围。虽然我们通过公开研究基准进行了广泛评估,但模型与评估结果均不适用于实际部署场景。详见相关论文。
数据来源
模型基于以下公开数据集构建:
数据集涵盖生物医学摘要、重症监护记录和胸部X光报告等多种来源。MIMIC-CXR中的放射学报告均配有对应DICOM影像。
性能表现
通过改进词表和融合放射学报告语义特征的新型预训练目标,本模型在放射学自然语言推理任务中达到最先进水平。
与其他常见模型(如ClinicalBERT和PubMedBERT)的核心对比:
|
RadNLI准确率(MedNLI迁移) |
掩码预测准确率 |
分词后平均标记数 |
词表大小 |
RadNLI基线 |
53.30 |
- |
- |
- |
ClinicalBERT |
47.67 |
39.84 |
78.98 (+38.15%) |
28,996 |
PubMedBERT |
57.71 |
35.24 |
63.55 (+11.16%) |
28,895 |
CXR-BERT(第三阶段后) |
60.46 |
77.72 |
58.07 (+1.59%) |
30,522 |
CXR-BERT(第三阶段+联合训练后) |
65.21 |
81.58 |
58.07 (+1.59%) |
30,522 |
CXR-BERT通过增强文本编码能力,显著提升了视觉-语言表征学习效果。下表为MS-CXR数据集上的零样本短语定位性能(评估图文潜在表征质量):
视觉-语言预训练方法 |
文本编码器 |
MS-CXR短语定位(平均CNR分数) |
基线 |
ClinicalBERT |
0.769 |
基线 |
PubMedBERT |
0.773 |
ConVIRT |
ClinicalBERT |
0.818 |
GLoRIA |
ClinicalBERT |
0.930 |
BioViL |
CXR-BERT |
1.027 |
BioViL-L |
CXR-BERT |
1.142 |
更多性能细节请参阅论文《Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing》。
局限性
本模型基于英文语料开发,仅限英文场景使用。
扩展信息
更多关于模型训练与评估的细节,请参考ECCV'22会议论文《Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing》。
如需使用CXR-BERT的推理流程,请访问HI-ML GitHub仓库。相关源代码将通过该链接陆续公开。