pubmed-clip-vit-base-patch32开源医疗模型 - 免费处理医学影像及相关文本

首页

Pubmed Clip Vit Base Patch32

由 flaviagiammarino 开发

PubMedCLIP是针对医疗领域微调的CLIP模型版本，专门用于处理医学影像和相关文本。

文本生成图像英语开源协议:MIT #医疗影像分析 #多模态医学 #零样本分类

下载量 10.27k

发布时间 : 6/13/2023

模型简介

PubMedCLIP是基于CLIP模型在医疗领域的微调版本，主要用于医学影像的分类和视觉问答任务。它通过ROCO数据集训练，支持多种医学成像模态和人体部位的识别。

模型特点

医疗领域专用

针对医疗领域进行了专门微调，能够更好地处理医学影像和相关文本。

多模态支持

支持多种医学成像模态（如X光、核磁共振、超声等）和人体部位的识别。

基于ROCO数据集训练

使用大规模多模态医学影像数据集ROCO进行训练，提升了模型在医疗领域的表现。

模型能力

医学影像分类

视觉问答

多模态医学影像处理

使用案例

医学影像分析

胸部X光片识别

识别和分类胸部X光片中的异常情况。

脑部核磁共振分析

分析脑部核磁共振图像，识别可能的病变区域。

腹部CT扫描分类

对腹部CT扫描图像进行分类，识别不同的解剖结构或病变。

🚀 PubMedCLIP模型卡

PubMedCLIP是CLIP在医学领域的微调版本，它能有效解决医学图像与文本的关联问题，为医学图像的理解和分析提供强大助力。

🚀 快速开始

你可以按照以下代码示例快速使用PubMedCLIP模型：

import requests
from PIL import Image
import matplotlib.pyplot as plt

from transformers import CLIPProcessor, CLIPModel

model = CLIPModel.from_pretrained("flaviagiammarino/pubmed-clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("flaviagiammarino/pubmed-clip-vit-base-patch32")

url = "https://huggingface.co/flaviagiammarino/pubmed-clip-vit-base-patch32/resolve/main/scripts/input.jpeg"
image = Image.open(requests.get(url, stream=True).raw)
text = ["Chest X-Ray", "Brain MRI", "Abdominal CT Scan"]

inputs = processor(text=text, images=image, return_tensors="pt", padding=True)
probs = model(**inputs).logits_per_image.softmax(dim=1).squeeze()

plt.subplots()
plt.imshow(image)
plt.title("".join([x[0] + ": " + x[1] + "\n" for x in zip(text, [format(prob, ".4%") for prob in probs])]))
plt.axis("off")
plt.tight_layout()
plt.show()

results

✨ 主要特性

PubMedCLIP是专门为医学领域微调的模型，基于大规模的医学影像数据集进行训练，能更好地处理医学图像和文本的关联任务。

📚 详细文档

模型描述

PubMedCLIP在Radiology Objects in COntext (ROCO)数据集上进行训练，这是一个大规模的多模态医学影像数据集。 ROCO数据集包含了来自各种人体部位（如头部、脊柱、胸部、腹部等）的多种成像模式（如X射线、MRI、超声、荧光透视等）的图像，这些图像来自开放获取的PubMed文章。

PubMedCLIP使用Adam优化器，学习率为10⁻⁵，以64的批量大小训练了50个周期。作者在这个链接发布了三种不同的预训练模型，它们分别使用ResNet - 50、ResNet - 50x4和ViT32作为图像编码器。本仓库仅包含PubMedCLIP模型的ViT32变体。

仓库地址：PubMedCLIP官方GitHub仓库
论文地址：Does CLIP Benefit Visual Question Answering in the Medical Domain as Much as it Does in the General Domain?

额外信息

许可信息

作者根据MIT许可协议发布了模型代码和预训练检查点。

引用信息

@article{eslami2021does,
  title={Does clip benefit visual question answering in the medical domain as much as it does in the general domain?},
  author={Eslami, Sedigheh and de Melo, Gerard and Meinel, Christoph},
  journal={arXiv preprint arXiv:2112.13906},
  year={2021}
}