paligemma_derm开源视觉-语言模型 - 免费助力皮肤病图像分析与状况识别

首页

Paligemma Derm

由 brucewayne0459 开发

基于PaliGemma-3B架构的视觉-语言模型，专门针对皮肤病图像分析任务进行微调，可辅助识别各种皮肤状况。

图像生成文本

Transformers

英语开源协议:Apache-2.0 #皮肤病图像诊断 #LoRA微调 #医学视觉语言模型

下载量 178

发布时间 : 8/19/2024

模型简介

该模型结合图像分析和自然语言处理技术，用于医学图像分析，特别是皮肤病学领域，能够通过分析皮肤病图像提供潜在皮肤状况的见解。

模型特点

视觉-语言结合

能够同时处理图像和文本输入，实现跨模态的皮肤病分析。

LoRA微调

使用低秩适应(LoRA)技术进行高效微调，降低训练成本。

医学专用

专门针对皮肤病学领域优化，适用于各种皮肤状况分析。

模型能力

皮肤病图像分析

跨模态理解

皮肤状况识别

医学图像分类

使用案例

医疗诊断

皮肤病初步筛查

通过分析皮肤病变图像，提供可能的诊断建议

验证损失约为0.2214，表明在皮肤状况预测中表现合理

医学教育

皮肤病案例学习

帮助医学生理解不同皮肤病的视觉特征

🚀 PaliGemma皮肤病学模型

本模型基于PaliGemma-3B架构，针对皮肤病学相关的图像和文本处理任务进行了微调。它结合了图像分析和自然语言处理技术，旨在辅助识别各种皮肤状况。

🚀 快速开始

以下是使用该模型的示例代码：

import torch
from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image

# 加载模型和处理器
model_id = "brucewayne0459/paligemma_derm"
processor = AutoProcessor.from_pretrained(model_id)
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, device_map={"": 0})
model.eval()

# 加载示例图像和文本输入
input_text = "Identify the skin condition?"
input_image_path = " Replace with your actual image path"  
input_image = Image.open(input_image_path).convert("RGB")

# 处理输入
inputs = processor(text=input_text, images=input_image, return_tensors="pt", padding="longest").to("cuda" if torch.cuda.is_available() else "cpu")

# 设置生成的最大长度
max_new_tokens = 50

# 运行推理
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=max_new_tokens)

# 解码输出
decoded_output = processor.decode(outputs[0], skip_special_tokens=True)
print("Model Output:", decoded_output)

✨ 主要特性

基于PaliGemma-3B架构，专为皮肤病学任务微调。
结合图像分析和自然语言处理，辅助识别皮肤状况。
可直接用于分析皮肤病图像，洞察潜在皮肤问题。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

import torch
from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image

# 加载模型和处理器
model_id = "brucewayne0459/paligemma_derm"
processor = AutoProcessor.from_pretrained(model_id)
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, device_map={"": 0})
model.eval()

# 加载示例图像和文本输入
input_text = "Identify the skin condition?"
input_image_path = " Replace with your actual image path"  
input_image = Image.open(input_image_path).convert("RGB")

# 处理输入
inputs = processor(text=input_text, images=input_image, return_tensors="pt", padding="longest").to("cuda" if torch.cuda.is_available() else "cpu")

# 设置生成的最大长度
max_new_tokens = 50

# 运行推理
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=max_new_tokens)

# 解码输出
decoded_output = processor.decode(outputs[0], skip_special_tokens=True)
print("Model Output:", decoded_output)