library_name: transformers
tags:
- 医疗
- 视觉语言
- clip
- 多模态
license: mit
language:
- en
ConceptCLIP模型卡片
模型详情
模型描述
ConceptCLIP是一个通过医学概念增强的大规模视觉语言预训练模型,适用于多种医学影像模态。该模型通过概念强化的语言-图像对齐机制,能在多种医学影像任务中实现稳健性能。
- 开发团队: 聂宇翔、何苏南、别业泉、王艺辉、陈志轩、杨舒、蔡志远、王红梅、王曦、罗璐阳、吴明祥、吴宪、陈长建、刘玉明、郑冶枫、Pranav Rajpurkar、陈浩
- 模型类型: 视觉语言预训练模型(医学专用)
- 支持语言: 英语(文本)、多模态(医学影像)
- 许可协议: MIT
- 基础模型: 基于OpenCLIP开发
模型来源
使用场景
直接应用
- 医学影像零样本分类
- 跨模态检索
- 零样本概念标注
- 全切片图像特征提取
- 医疗报告生成特征提取
下游应用
- 特定医学影像任务微调(CT/MRI/X光分析、分类、视觉问答)
- 可解释性的概念瓶颈模型
- 临床决策支持系统集成
- 医学教育培训工具开发
非适用场景
- 未经临床验证的直接诊断
- 非医学影像分析
- 医疗领域外的通用视觉任务
偏差、风险与限制
- 训练数据可能存在人口统计学偏差
- 不同医学影像模态间性能存在差异
- 不可作为无人监督的独立诊断工具
使用建议
- 医疗决策前需经临床专家验证输出结果
- 专业应用需进行领域数据微调
- 新临床环境部署时应进行偏差分析
快速开始
from transformers import AutoModel, AutoProcessor
import torch
from PIL import Image
model = AutoModel.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
processor = AutoProcessor.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
image = Image.open('example_data/chest_X-ray.jpg').convert('RGB')
labels = ['胸部X光', '脑部MRI', '皮肤病变']
texts = [f'一张{label}的医学影像' for label in labels]
inputs = processor(
images=image,
text=texts,
return_tensors='pt',
padding=True,
truncation=True
).to(model.device)
with torch.no_grad():
outputs = model(**inputs)
logits = (outputs['logit_scale'] * outputs['image_features'] @ outputs['text_features'].t()).softmax(dim=-1)[0]
print({label: f"{prob:.2%}" for label, prob in zip(labels, logits)})
训练详情
训练数据
训练流程
- 基于OpenCLIP架构集成医学概念
- 采用图像-文本对齐(IT-Align)和区域-概念对齐(RC-Align)目标进行预训练
训练超参数
- 基础架构: SigLIP-ViT-400M-16 + PubMedBERT
- 训练模式: 混合精度训练
- 批处理大小: 无PC-Align时12,288/有PC-Align时6,144
- 学习率: 无PC-Align时5e-4/有PC-Align时3e-4
评估
测试数据与指标
测试数据
- 在多个开源医学影像基准测试中评估,涵盖医学影像诊断、跨模态检索、医学视觉问答、医学报告生成、全切片图像分析和可解释AI等任务
引用
BibTeX格式:
@article{nie2025conceptclip,
title={An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training},
author={Nie, Yuxiang and He, Sunan and Bie, Yequan and Wang, Yihui and Chen, Zhixuan and Yang, Shu and Cai, Zhiyuan and Wang, Hongmei and Wang, Xi and Luo, Luyang and Wu, Mingxiang and Wu, Xian and Chan, Ronald Cheong Kin and Lau, Yuk Ming and Zheng, Yefeng and Rajpurkar, Pranav and Chen, Hao},
journal={arXiv preprint arXiv:2501.15579},
year={2025}
}
APA格式:
聂宇翔, 何苏南, 别业泉 等. (2025). 通过大规模概念增强视觉语言预训练构建可解释的生物医学基础模型. arXiv预印本 arXiv:2501.15579.
联系信息
聂宇翔: ynieae@connect.ust.hk