语言: 英语
标签:
- exbert
许可证: mit
小部件:
- 文本: "左侧胸腔积液伴邻近[MASK]。"
示例标题: "放射学案例1"
- 文本: "心影大小正常,双肺[MASK]。"
示例标题: "放射学案例2"
- 文本: "[MASK]是一种抑癌基因。"
示例标题: "生物医学"
- 文本: "患者因慢性心房颤动服用[MASK]"
示例标题: "药物治疗"
BioViL-T模型
BioViL-T是一款专为分析胸部X光片(CXR)与放射科报告设计的领域专用视觉语言模型。该模型通过时序多模态预训练流程进行训练,这使其与前代模型BioViL形成显著差异。具体而言,BioViL-T充分利用了数据点间的时序结构,在保持训练数据集不变的前提下,于多个基准测试中实现了下游任务性能的提升。特别值得注意的是,该模型在图像与文本模态的时序信息嵌入(参见性能表现)及联合空间表征方面均展现出显著改进。这一标准模型可适配单幅/多幅图像的下游应用场景,包括:自然语言推理、短语定位、图像/文本分类以及语言解码。
配套的BERT语言模型采用两阶段训练:首先基于随机初始化的BERT模型,通过掩码语言建模(MLM)在PubMed摘要及公开数据集MIMIC-III、MIMIC-CXR的临床笔记上预训练CXR-BERT-general。该通用模型可通过调整目标领域参数适配其他临床领域研究。第二阶段,BioViL-T以CXR-BERT-general为基础,利用放射科报告与胸部X光序列进行多模态持续预训练,通过[CLS]标记的潜在表征实现文本与图像嵌入的对齐。
语言模型变体
图像模型
该图像模型通过多模态对比学习框架与文本模型联合训练,采用Vision Transformer与ResNet-50组成的混合编码架构。其中ResNet-50作为骨干网络提取单时间点图像特征,Transformer则用于聚合跨时间维度的图像特征进行对比分析。相关模型定义及加载函数可通过HI-ML-Multimodal GitHub仓库获取。联合图像文本模型BioViL-T可应用于短语定位任务,具体示例参见Python笔记本演示。另请参考MS-CXR基准测试获取对联合模型短语定位能力的系统评估。
文献引用
相关论文已被计算机视觉与模式识别会议(CVPR)2023收录:
@misc{https://doi.org/10.48550/arXiv.2301.04558,
doi = {10.48550/ARXIV.2301.04558},
url = {https://arxiv.org/abs/2301.04558},
author = {Bannur, Shruthi and Hyland, Stephanie and Liu, Qianchu and Perez-Garcia, Fernando and Ilse, Maximilian and Castro, Daniel C and Boecking, Benedikt and Sharma, Harshita and Bouzid, Kenza and Thieme, Anja and Schwaighofer, Anton and Wetscherek, Maria and Lungren, Matthew P and Nori, Aditya and Alvarez-Valle, Javier and Oktay, Ozan},
title = {Learning to Exploit Temporal Structure for Biomedical Vision–Language Processing},
publisher = {arXiv},
year = {2023},
}
模型使用
适用范围
本模型仅限用于:(I) 视觉语言处理领域的后续研究;(II) 重现参考文献报告的实验结果。
主要用途
核心用途是支持AI研究人员基于此开展工作。CXR-BERT及相关模型有助于探索各类临床NLP与VLP研究问题,特别是在放射学领域。
非适用范围
目前任何商业或非商业部署场景均属非适用范围。尽管我们通过大量公开研究基准评估模型,但这些评估并非为部署场景设计。在极端条件下,模型可能产生错误预测并显现局限性,需额外缓解策略。因此我们不建议将其用于自动化诊断或医疗设备。详见相关论文。
使用示例
以下代码展示如何提取放射学语句嵌入并计算联合空间余弦相似度:
import torch
from transformers import AutoModel, AutoTokenizer
url = "microsoft/BiomedVLP-BioViL-T"
tokenizer = AutoTokenizer.from_pretrained(url, trust_remote_code=True)
model = AutoModel.from_pretrained(url, trust_remote_code=True)
text_prompts = ["未见胸腔积液或气胸。",
"无气胸或胸腔积液。",
"胸腔积液范围缩小。",
"胸腔积液范围保持稳定。",
"胸腔积液范围较前增大。"]
with torch.no_grad():
tokenizer_output = tokenizer.batch_encode_plus(batch_text_or_text_pairs=text_prompts,
add_special_tokens=True,
padding='longest',
return_tensors='pt')
embeddings = model.get_projected_text_embeddings(input_ids=tokenizer_output.input_ids,
attention_mask=tokenizer_output.attention_mask)
sim = torch.mm(embeddings, embeddings.t())
数据来源
本模型基于以下公开数据集构建:
这些数据集涵盖从生物医学摘要到ICU护理笔记再到胸片报告等广泛来源。MIMIC-CXR中的放射报告还包含关联的DICOM影像。
性能表现
本模型通过更高效地利用语义与语篇特征,在放射学自然语言推理任务中达到SOTA水平。在评估文本嵌入静态语义(RadNLI)和时序语义(MS-CXR-T)的基准测试中,BioViL-T相较PubMedBERT和CXR-BERT等领域专用BERT模型表现如下:
新颖的预训练框架还提升了视觉语言表征能力。下表为MS-CXR短语定位基准的零样本表现:
视觉语言预训练方法 |
MS-CXR短语定位(平均CNR分数) |
MS-CXR短语定位(mIoU) |
BioViL |
1.07 ± 0.04 |
0.229 ± 0.005 |
BioViL-L |
1.21 ± 0.05 |
0.202 ± 0.010 |
BioViL-T |
1.33 ± 0.04 |
0.240 ± 0.005 |
更多实验结果详见CVPR'23论文"Learning to Exploit Temporal Structure for Biomedical Vision–Language Processing"。
局限性
本模型基于英语语料开发,属英语专用模型。
训练数据仅包含ICU医疗影像与报告,其纵向影像采集时间跨度多为数小时至数日。因此当分析长时间跨度(如数年)的连续影像时,模型可能因解剖结构显著变化而表现下降。
扩展信息
更多模型训练与评估细节请参阅CVPR'23论文"Learning to Exploit Temporal Structure for Biomedical Vision–Language Processing"。
BioViL-T的额外推理流程请访问HI-ML GitHub仓库,相关源文件将很快通过该链接开放。