ConceptCLIP开源医学视觉语言模型 - 多模态影像处理，多任务稳健运行

首页

Conceptclip

由 JerrryNie 开发

ConceptCLIP是一个通过医学概念增强的大规模视觉语言预训练模型，适用于多种医学影像模态，能在多种医学影像任务中实现稳健性能。

图像生成文本

Transformers

英语开源协议:MIT #医学多模态 #概念增强 #零样本分类

下载量 836

发布时间 : 1/22/2025

模型简介

该模型通过概念强化的语言-图像对齐机制，适用于医学影像分析、分类和跨模态检索等任务。

模型特点

医学概念增强

通过大规模医学概念标注增强视觉语言对齐能力

多模态支持

支持CT、MRI、X光等多种医学影像模态

零样本学习

无需微调即可在新医学任务上表现良好

可解释性

通过概念瓶颈提供可解释的预测结果

模型能力

医学影像分类

跨模态检索

概念标注

特征提取

零样本学习

使用案例

医学影像分析

胸部X光分类

对胸部X光片进行零样本分类

脑部MRI分析

识别脑部MRI中的异常区域

临床决策支持

辅助诊断

为医生提供影像分析参考

医学教育

教学工具

用于医学影像教学和培训

🚀 ConceptCLIP 模型卡片

ConceptCLIP 是一个针对多种医学图像模态，融入医学概念进行增强的大规模视觉 - 语言预训练模型。它通过概念增强的语言 - 图像对齐，在多个医学成像任务中实现了强大的性能。

🚀 快速开始

以下是使用 ConceptCLIP 模型的示例代码：

from transformers import AutoModel, AutoProcessor
import torch
from PIL import Image

model = AutoModel.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
processor = AutoProcessor.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)

image = Image.open('example_data/chest_X-ray.jpg').convert('RGB')
labels = ['chest X-ray', 'brain MRI', 'skin lesion']
texts = [f'a medical image of {label}' for label in labels]

inputs = processor(
    images=image, 
    text=texts,
    return_tensors='pt',
    padding=True,
    truncation=True
).to(model.device)

with torch.no_grad():
    outputs = model(**inputs)
    logits = (outputs['logit_scale'] * outputs['image_features'] @ outputs['text_features'].t()).softmax(dim=-1)[0]

print({label: f"{prob:.2%}" for label, prob in zip(labels, logits)})

✨ 主要特性

模型详情

开发者：Yuxiang Nie, Sunan He, Yequan Bie, Yihui Wang, Zhixuan Chen, Shu Yang, Zhiyuan Cai, Hongmei Wang, Xi Wang, Luyang Luo, Mingxiang Wu, Xian Wu, Ronald Cheong Kin Chan, Yuk Ming Lau, Yefeng Zheng, Pranav Rajpurkar, Hao Chen
模型类型：视觉 - 语言预训练模型（医学专用）
语言支持：英语（文本），多模态（医学成像）
许可证：MIT
微调基础模型：基于 OpenCLIP

模型来源

仓库地址：GitHub 项目
论文地址：An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training
演示地址：Hugging Face 模型中心

应用场景

直接应用

零样本医学图像分类
跨模态检索
零样本概念标注
提取全切片图像分析的特征
提取医学报告生成的特征

下游应用

针对特定医学成像任务（CT、MRI、X光分析）进行微调，用于分类和视觉问答
用于解释的概念瓶颈模型
集成到临床决策支持系统中
医学教育和培训工具

不适用场景

未经临床验证的直接临床诊断
非医学图像分析
医学领域之外的通用视觉任务

偏差、风险和局限性

主要基于医学成像数据进行训练，可能存在人口统计学偏差
在不同的医学成像模态上性能可能会有所不同
未经人工监督，不应作为唯一的诊断工具

建议

在进行医学决策之前，与临床专家一起验证输出结果
针对特定应用在特定领域的数据上进行微调
在新的临床环境中部署时进行偏差分析

📦 安装指南

文档未提及安装步骤，暂不提供。

💻 使用示例

基础用法

from transformers import AutoModel, AutoProcessor
import torch
from PIL import Image

model = AutoModel.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
processor = AutoProcessor.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)

image = Image.open('example_data/chest_X-ray.jpg').convert('RGB')
labels = ['chest X-ray', 'brain MRI', 'skin lesion']
texts = [f'a medical image of {label}' for label in labels]

inputs = processor(
    images=image, 
    text=texts,
    return_tensors='pt',
    padding=True,
    truncation=True
).to(model.device)

with torch.no_grad():
    outputs = model(**inputs)
    logits = (outputs['logit_scale'] * outputs['image_features'] @ outputs['text_features'].t()).softmax(dim=-1)[0]

print({label: f"{prob:.2%}" for label, prob in zip(labels, logits)})

📚 详细文档

训练详情

训练数据

包含概念信息的大规模医学图像 - 文本对

训练过程

基于 OpenCLIP 架构，集成了医学概念
以图像 - 文本对齐（IT - 对齐）和区域 - 概念对齐（RC - 对齐）为目标进行预训练

训练超参数

基础架构：SigLIP - ViT - 400M - 16 + PubMedBERT
训练机制：混合精度训练
批量大小：无 PC - 对齐时为 12,288，有 PC - 对齐时为 6,144
学习率：无 PC - 对齐时为 5e - 4，有 PC - 对齐时为 3e - 4

评估

测试数据与指标

测试数据

在多个开源医学成像基准上进行评估，包括医学图像诊断、跨模态检索、医学视觉问答、医学报告生成、全切片图像分析和可解释人工智能

🔧 技术细节

模型基于 OpenCLIP 架构构建，集成了医学概念，通过图像 - 文本对齐和区域 - 概念对齐目标进行预训练。
训练采用混合精度训练，不同的训练设置有不同的批量大小和学习率。

📄 许可证

本模型使用 MIT 许可证。

引用

BibTeX：

@article{nie2025conceptclip,
  title={An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training},
  author={Nie, Yuxiang and He, Sunan and Bie, Yequan and Wang, Yihui and Chen, Zhixuan and Yang, Shu and Cai, Zhiyuan and Wang, Hongmei and Wang, Xi and Luo, Luyang and Wu, Mingxiang and Wu, Xian and Chan, Ronald Cheong Kin and Lau, Yuk Ming and Zheng, Yefeng and Rajpurkar, Pranav and Chen, Hao},
  journal={arXiv preprint arXiv:2501.15579},
  year={2025}
}

APA： Nie, Y., He, S., Bie, Y., Wang, Y., Chen, Z., Yang, S., Cai, Z., Wang, H., Wang, X., Luo, L., Wu, M., Wu, X., Chan, R. C. K., Lau, Y. M., Zheng, Y., Rajpurkar, P., & Chen, H. (2025). An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training. arXiv preprint arXiv:2501.15579.