库名称:transformers
流水线标签:图像文本到文本
许可证:apache-2.0
数据集:
- joshuachou/SkinCAP
- HemanthKumarK/SKINgpt
语言:
- en
标签:
- 生物学
- 皮肤
- 皮肤病
- 癌症
- 医学
PaliGemma皮肤病模型卡
模型详情
模型描述
该模型基于PaliGemma-3B架构,针对皮肤病相关的图像和文本处理任务进行了微调。该模型旨在通过结合图像分析和自然语言处理技术,辅助识别各种皮肤状况。
- 开发者: Bruce_Wayne
- 模型类型: 视觉模型
- 微调自模型: https://huggingface.co/google/paligemma-3b-pt-224
- 使用LoRa适配器: 是
- 预期用途: 医学图像分析,特别是皮肤病学
请告诉我模型如何工作 --> https://forms.gle/cBA6apSevTyiEbp46
谢谢
用途
直接使用
该模型可直接用于分析皮肤病图像,提供潜在皮肤状况的见解。
偏见、风险和限制
肤色偏见: 模型可能在未充分代表所有肤色的数据集上训练,可能导致结果存在偏见。
地理偏见: 模型性能可能因不同地理区域中某些疾病的流行程度而有所差异。
如何开始使用模型
import torch
from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
model_id = "brucewayne0459/paligemma_derm"
processor = AutoProcessor.from_pretrained(model_id)
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, device_map={"": 0})
model.eval()
input_text = "识别皮肤状况?"
input_image_path = "替换为实际图像路径"
input_image = Image.open(input_image_path).convert("RGB")
inputs = processor(text=input_text, images=input_image, return_tensors="pt", padding="longest").to("cuda" if torch.cuda.is_available() else "cpu")
max_new_tokens = 50
with torch.no_grad():
outputs = model.generate(**inputs, max_new_tokens=max_new_tokens)
decoded_output = processor.decode(outputs[0], skip_special_tokens=True)
print("模型输出:", decoded_output)
训练详情
训练数据
模型在皮肤病图像与疾病名称组合的数据集上进行了微调。
训练过程
模型使用LoRA(低秩适应)进行更高效的训练,并采用混合精度(bfloat16)以加速训练并减少内存使用。
训练超参数
- 训练方式: 混合精度(bfloat16)
- 轮次: 10
- 学习率: 2e-5
- 批量大小: 6
- 梯度累积步数: 4
评估
测试数据、因素和指标
测试数据
模型在与训练数据不同的皮肤病图像和疾病名称的独立验证集上进行了评估。
指标
- 验证损失: 在整个训练过程中跟踪损失以评估模型性能。
- 准确率: 评估模型预测的主要指标。
结果
模型的最终验证损失约为0.2214,表明在基于所用数据集的皮肤状况预测中表现合理。
总结
环境影响
- 硬件类型: 1块L4 GPU
- 使用时长: 约22小时
- 云服务提供商: LIGHTNING AI
- 计算区域: 美国
- 碳排放量: 0.9千克当量CO2
技术规格
模型架构和目标
- 架构: 基于PaliGemma-3B的视觉-语言模型
- 目标: 从图像和文本中分类和诊断皮肤病状况
计算基础设施
硬件
模型卡作者
Bruce_Wayne