🚀 ConceptCLIP 模型卡片
ConceptCLIP 是一个针对多种医学图像模态,融入医学概念进行增强的大规模视觉 - 语言预训练模型。它通过概念增强的语言 - 图像对齐,在多个医学成像任务中实现了强大的性能。
🚀 快速开始
以下是使用 ConceptCLIP 模型的示例代码:
from transformers import AutoModel, AutoProcessor
import torch
from PIL import Image
model = AutoModel.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
processor = AutoProcessor.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
image = Image.open('example_data/chest_X-ray.jpg').convert('RGB')
labels = ['chest X-ray', 'brain MRI', 'skin lesion']
texts = [f'a medical image of {label}' for label in labels]
inputs = processor(
images=image,
text=texts,
return_tensors='pt',
padding=True,
truncation=True
).to(model.device)
with torch.no_grad():
outputs = model(**inputs)
logits = (outputs['logit_scale'] * outputs['image_features'] @ outputs['text_features'].t()).softmax(dim=-1)[0]
print({label: f"{prob:.2%}" for label, prob in zip(labels, logits)})
✨ 主要特性
模型详情
- 开发者:Yuxiang Nie, Sunan He, Yequan Bie, Yihui Wang, Zhixuan Chen, Shu Yang, Zhiyuan Cai, Hongmei Wang, Xi Wang, Luyang Luo, Mingxiang Wu, Xian Wu, Ronald Cheong Kin Chan, Yuk Ming Lau, Yefeng Zheng, Pranav Rajpurkar, Hao Chen
- 模型类型:视觉 - 语言预训练模型(医学专用)
- 语言支持:英语(文本),多模态(医学成像)
- 许可证:MIT
- 微调基础模型:基于 OpenCLIP
模型来源
应用场景
直接应用
- 零样本医学图像分类
- 跨模态检索
- 零样本概念标注
- 提取全切片图像分析的特征
- 提取医学报告生成的特征
下游应用
- 针对特定医学成像任务(CT、MRI、X光分析)进行微调,用于分类和视觉问答
- 用于解释的概念瓶颈模型
- 集成到临床决策支持系统中
- 医学教育和培训工具
不适用场景
- 未经临床验证的直接临床诊断
- 非医学图像分析
- 医学领域之外的通用视觉任务
偏差、风险和局限性
- 主要基于医学成像数据进行训练,可能存在人口统计学偏差
- 在不同的医学成像模态上性能可能会有所不同
- 未经人工监督,不应作为唯一的诊断工具
建议
- 在进行医学决策之前,与临床专家一起验证输出结果
- 针对特定应用在特定领域的数据上进行微调
- 在新的临床环境中部署时进行偏差分析
📦 安装指南
文档未提及安装步骤,暂不提供。
💻 使用示例
基础用法
from transformers import AutoModel, AutoProcessor
import torch
from PIL import Image
model = AutoModel.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
processor = AutoProcessor.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
image = Image.open('example_data/chest_X-ray.jpg').convert('RGB')
labels = ['chest X-ray', 'brain MRI', 'skin lesion']
texts = [f'a medical image of {label}' for label in labels]
inputs = processor(
images=image,
text=texts,
return_tensors='pt',
padding=True,
truncation=True
).to(model.device)
with torch.no_grad():
outputs = model(**inputs)
logits = (outputs['logit_scale'] * outputs['image_features'] @ outputs['text_features'].t()).softmax(dim=-1)[0]
print({label: f"{prob:.2%}" for label, prob in zip(labels, logits)})
📚 详细文档
训练详情
训练数据
训练过程
- 基于 OpenCLIP 架构,集成了医学概念
- 以图像 - 文本对齐(IT - 对齐)和区域 - 概念对齐(RC - 对齐)为目标进行预训练
训练超参数
- 基础架构:SigLIP - ViT - 400M - 16 + PubMedBERT
- 训练机制:混合精度训练
- 批量大小:无 PC - 对齐时为 12,288,有 PC - 对齐时为 6,144
- 学习率:无 PC - 对齐时为 5e - 4,有 PC - 对齐时为 3e - 4
评估
测试数据与指标
测试数据
- 在多个开源医学成像基准上进行评估,包括医学图像诊断、跨模态检索、医学视觉问答、医学报告生成、全切片图像分析和可解释人工智能
🔧 技术细节
- 模型基于 OpenCLIP 架构构建,集成了医学概念,通过图像 - 文本对齐和区域 - 概念对齐目标进行预训练。
- 训练采用混合精度训练,不同的训练设置有不同的批量大小和学习率。
📄 许可证
本模型使用 MIT 许可证。
引用
BibTeX:
@article{nie2025conceptclip,
title={An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training},
author={Nie, Yuxiang and He, Sunan and Bie, Yequan and Wang, Yihui and Chen, Zhixuan and Yang, Shu and Cai, Zhiyuan and Wang, Hongmei and Wang, Xi and Luo, Luyang and Wu, Mingxiang and Wu, Xian and Chan, Ronald Cheong Kin and Lau, Yuk Ming and Zheng, Yefeng and Rajpurkar, Pranav and Chen, Hao},
journal={arXiv preprint arXiv:2501.15579},
year={2025}
}
APA:
Nie, Y., He, S., Bie, Y., Wang, Y., Chen, Z., Yang, S., Cai, Z., Wang, H., Wang, X., Luo, L., Wu, M., Wu, X., Chan, R. C. K., Lau, Y. M., Zheng, Y., Rajpurkar, P., & Chen, H. (2025). An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training. arXiv preprint arXiv:2501.15579.
模型卡片联系方式
Yuxiang Nie: ynieae@connect.ust.hk