CXR-BERT-专业化模型
CXR-BERT 是针对胸部X光(CXR)领域专门优化的语言模型,通过改进词汇表、创新预训练流程、权重正则化和文本增强技术实现。该模型在放射学自然语言推理、放射学掩码语言模型标记预测以及视觉-语言下游任务(如零样本短语定位和图像分类)中展现出卓越性能。
我们首先通过掩码语言建模(MLM)在PubMed摘要及公开的MIMIC-III和MIMIC-CXR临床笔记上,从零开始预训练CXR-BERT-general基础模型。该通用模型可通过领域微调应用于胸部放射学之外的其他临床研究领域。
CXR-BERT-specialized是在通用模型基础上持续预训练的胸部X光领域专用版本。最终阶段采用类似CLIP框架的多模态对比学习,利用[CLS]标记的潜在表征实现文本/图像嵌入对齐。
模型变体
图像模型
CXR-BERT-specialized与ResNet-50图像模型在多模态对比学习框架中联合训练。图像模型预先通过SimCLR在MIMIC-CXR图像集上训练。相关模型定义可通过HI-ML-Multimodal GitHub仓库获取。联合图像文本模型BioViL可用于短语定位应用,具体示例参见演示笔记本。系统评估请参考MS-CXR基准测试。
文献引用
相关论文已被欧洲计算机视觉会议(ECCV 2022)收录:
@misc{https://doi.org/10.48550/arxiv.2204.09817,
doi = {10.48550/ARXIV.2204.09817},
url = {https://arxiv.org/abs/2204.09817},
author = {Boecking, Benedikt and Usuyama, Naoto and Bannur, Shruthi and Castro, Daniel C. and Schwaighofer, Anton and Hyland, Stephanie and Wetscherek, Maria and Naumann, Tristan and Nori, Aditya and Alvarez-Valle, Javier and Poon, Hoifung and Oktay, Ozan},
title = {Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing},
publisher = {arXiv},
year = {2022},
}
使用指南
适用范围
本模型限用于:(I) 视觉-语言处理领域后续研究;(II) 重现参考文献中的实验结果。
主要用途
支持AI研究人员开展相关研究,特别适用于放射学领域的临床NLP与VLP研究探索。
非适用范围
目前不适用于任何商业或实际部署场景。模型评估基于公开研究基准,具体限制详见相关论文。
调用示例
获取放射学语句嵌入并计算联合空间余弦相似度:
import torch
from transformers import AutoModel, AutoTokenizer
url = "microsoft/BiomedVLP-CXR-BERT-specialized"
tokenizer = AutoTokenizer.from_pretrained(url, trust_remote_code=True)
model = AutoModel.from_pretrained(url, trust_remote_code=True)
text_prompts = ["未见气胸或胸腔积液",
"未观察到胸腔积液和气胸",
"胸腔积液范围保持稳定"]
tokenizer_output = tokenizer.batch_encode_plus(batch_text_or_text_pairs=text_prompts,
add_special_tokens=True,
padding='longest',
return_tensors='pt')
embeddings = model.get_projected_text_embeddings(input_ids=tokenizer_output.input_ids,
attention_mask=tokenizer_output.attention_mask)
sim = torch.mm(embeddings, embeddings.t())
训练数据
模型基于以下公开数据集构建:
数据集涵盖生物医学摘要、ICU临床记录及伴随DICOM影像的胸部X光报告。
性能表现
模型通过改进的词汇表和创新的放射学报告语义建模方法,在放射学自然语言推理任务中达到SOTA:
|
RadNLI准确率(MedNLI迁移) |
掩码预测准确率 |
平均分词后标记数 |
词汇表大小 |
RadNLI基线 |
53.30 |
- |
- |
- |
ClinicalBERT |
47.67 |
39.84 |
78.98 (+38.15%) |
28,996 |
PubMedBERT |
57.71 |
35.24 |
63.55 (+11.16%) |
28,895 |
CXR-BERT (第三阶段后) |
60.46 |
77.72 |
58.07 (+1.59%) |
30,522 |
CXR-BERT (第三阶段+联合训练后) |
65.21 |
81.58 |
58.07 (+1.59%) |
30,522 |
在视觉-语言表征学习方面,模型在MS-CXR短语定位基准测试中表现优异:
视觉-语言预训练方法 |
文本编码器 |
MS-CXR短语定位(平均CNR分数) |
基线 |
ClinicalBERT |
0.769 |
基线 |
PubMedBERT |
0.773 |
ConVIRT |
ClinicalBERT |
0.818 |
GLoRIA |
ClinicalBERT |
0.930 |
BioViL |
CXR-BERT |
1.027 |
BioViL-L |
CXR-BERT |
1.142 |
完整性能分析详见论文《Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing》。
局限性
本模型仅基于英文语料训练,属于单语言模型。
扩展信息
更多训练与评估细节请参阅ECCV'22会议论文《Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing》。
其他推理流程示例请访问HI-ML-Multimodal GitHub仓库。