paligemma_vqav2开源视觉问答模型 - 免费部署精准解答图像相关问题

首页

Paligemma Vqav2

由 merve 开发

该模型是基于google/paligemma-3b-pt-224在VQAv2数据集的一小部分上进行微调的版本，专注于视觉问答任务。

文本生成图像

Transformers

#视觉问答 #多模态模型 #图像理解

下载量 168

发布时间 : 5/23/2024

模型简介

这是一个视觉语言模型，专门用于回答基于图像的问题。它结合了图像理解和自然语言处理能力，能够根据图像内容生成准确的文本回答。

模型特点

视觉问答能力

能够理解图像内容并回答相关问题

多模态理解

同时处理视觉和文本信息

小样本微调

在VQAv2数据集子集上进行了针对性优化

模型能力

图像理解

视觉问答

多模态推理

使用案例

教育

辅助学习

帮助学生理解教材中的图像内容

提供准确的图像相关问题解答

内容分析

图像内容描述

分析图像内容并回答相关问题

生成准确的图像内容描述和解释

🚀 paligemma_vqav2

paligemma_vqav2 是一个基于预训练模型微调得到的模型，它基于 google/paligemma-3b-pt-224 在小部分 vq_av2 数据集上进行了微调。该模型可用于特定的视觉问答任务，为图像相关的问题提供答案。

🚀 快速开始

本模型是 google/paligemma-3b-pt-224 在一小部分 vq_av2 数据集上的微调版本。微调代码可在此处查看。

💻 使用示例

基础用法

以下是使用该模型的代码示例，也可参考推理笔记本。

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests

model_id = "merve/paligemma_vqav2"
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained("google/paligemma-3b-pt-224")

prompt = "What is behind the cat?"
image_file = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/cat.png?download=true"
raw_image = Image.open(requests.get(image_file, stream=True).raw)

inputs = processor(prompt, raw_image.convert("RGB"), return_tensors="pt")
output = model.generate(**inputs, max_new_tokens=20)

print(processor.decode(output[0], skip_special_tokens=True)[len(prompt):])
# gramophone