UForm-Gen2-dpo开源视觉语言模型 - 免费实现图像描述与视觉问答

首页

Uform Gen2 Dpo

由 unum-cloud 开发

UForm-Gen2-dpo 是一个小型生成式视觉语言模型，通过直接偏好优化（DPO）在 VLFeedback 和 LLaVA-Human-Preference-10K 偏好数据集上针对图像描述生成和视觉问答任务进行对齐训练。

图像生成文本

Transformers

英语开源协议:Apache-2.0 #多模态对话 #偏好优化对齐 #轻量级视觉语言模型

下载量 3,568

发布时间 : 3/27/2024

模型简介

该模型主要用于图像描述生成、视觉问答以及多模态对话场景，包含类CLIP架构的ViT-H/14视觉编码器和Qwen1.5-0.5B-Chat语言模型。

模型特点

直接偏好优化训练

在VLFeedback和LLaVA-Human-Preference-10K偏好数据集上进行DPO训练，提升模型输出质量

高效训练

在8块H100 GPU的DGX-H100服务器上训练耗时不足一天

多模态能力

结合视觉编码器和语言模型，实现图像理解和文本生成

模型能力

图像描述生成

视觉问答

多模态对话

图像理解

文本生成

使用案例

内容生成

图像详细描述

为输入的图像生成详细描述

示例输出：'图片展示了一间光线充足、宁静的卧室...'

图像简短描述

为输入的图像生成简短描述

示例输出：'一只白橘相间的猫用后腿站立...'

智能问答

视觉问答

回答关于图像内容的问题

🚀 UForm-Gen2-dpo 模型

UForm-Gen2-dpo 是一款小型生成式视觉语言模型，借助直接偏好优化（DPO）方法，在偏好数据集 VLFeedback 和 LLaVA-Human-Preference-10K 上针对图像描述和视觉问答任务进行了对齐。该模型可用于图像描述、回答关于图像的问题，也适用于多模态聊天。

🚀 快速开始

模型组成

UForm-Gen2-dpo 模型由两部分组成：

类 CLIP 的 ViT-H/14
Qwen1.5 - 0.5B - Chat

训练信息

该模型在配备 8 块 H100 GPU 的 DGX - H100 上训练不到一天即可完成。感谢 Nebius.ai 提供的计算资源 🤗

使用示例

基础用法

from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained("unum-cloud/uform-gen2-dpo", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("unum-cloud/uform-gen2-dpo", trust_remote_code=True)
prompt = "Question or Instruction"
image = Image.open("image.jpg")
inputs = processor(text=[prompt], images=[image], return_tensors="pt")
with torch.inference_mode():
     output = model.generate(
        **inputs,
        do_sample=False,
        use_cache=True,
        max_new_tokens=256,
        eos_token_id=151645,
        pad_token_id=processor.tokenizer.pad_token_id
    )
prompt_len = inputs["input_ids"].shape[1]
decoded_text = processor.batch_decode(output[:, prompt_len:])[0]

该生成式模型可用于为图像添加描述、回答关于图像的问题，也适用于多模态聊天。你可以在我们的演示空间中查看不同提示的示例。

✨ 主要特性

功能多样：可用于图像描述、视觉问答以及多模态聊天。
训练高效：在强大的计算资源支持下，训练时间不到一天。

📦 安装指南

文档未提供具体安装步骤，暂不展示。

💻 使用示例

基础用法

from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained("unum-cloud/uform-gen2-dpo", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("unum-cloud/uform-gen2-dpo", trust_remote_code=True)
prompt = "Question or Instruction"
image = Image.open("image.jpg")
inputs = processor(text=[prompt], images=[image], return_tensors="pt")
with torch.inference_mode():
     output = model.generate(
        **inputs,
        do_sample=False,
        use_cache=True,
        max_new_tokens=256,
        eos_token_id=151645,
        pad_token_id=processor.tokenizer.pad_token_id
    )
prompt_len = inputs["input_ids"].shape[1]
decoded_text = processor.batch_decode(output[:, prompt_len:])[0]

高级用法

文档未提供高级用法示例，暂不展示。

📚 详细文档

模型描述

UForm - Gen2 - dpo 是一个小型生成式视觉语言模型，在偏好数据集 VLFeedback 和 LLaVA - Human - Preference - 10K 上，使用直接偏好优化（DPO）方法进行图像描述和视觉问答任务的对齐。

模型结构

模型由两部分构成：

CLIP 类的 ViT - H/14
Qwen1.5 - 0.5B - Chat

训练情况

该模型在配备 8 块 H100 GPU 的 DGX - H100 上训练不到一天。

模型用途

该生成式模型可用于为图像添加描述、回答关于图像的问题，也适用于多模态聊天。

🔧 技术细节

评估指标

评估指标	详情
感知能力	模型在感知图像特征方面的表现
推理能力	模型进行逻辑推理的能力
OCR 能力	光学字符识别能力
艺术理解能力	对艺术作品的理解和描述能力
名人识别能力	识别名人的能力
代码推理能力	进行代码相关推理的能力
颜色识别能力	识别颜色的能力
常识推理能力	基于常识进行推理的能力
计数能力	对图像中物体计数的能力
存在判断能力	判断物体是否存在的能力
地标识别能力	识别地标建筑的能力
数值计算能力	进行数值计算的能力
位置判断能力	判断物体位置的能力
海报理解能力	理解海报内容的能力
场景识别能力	识别场景的能力
文本翻译能力	进行文本翻译的能力

评估结果

模型	感知能力	推理能力	OCR 能力	艺术理解能力	名人识别能力	代码推理能力	颜色识别能力	常识推理能力	计数能力	存在判断能力	地标识别能力	数值计算能力	位置判断能力	海报理解能力	场景识别能力	文本翻译能力
uform - gen2 - dpo	1,048.75	224.64	72.50	97.25	62.65	67.50	123.33	57.14	136.67	195.00	104.00	50.00	51.67	59.18	146.50	50.00
uform - gen2 - qwen - 500m	863.40	236.43	57.50	93.00	67.06	57.50	78.33	81.43	53.33	150.00	98.00	50.00	50.00	62.93	153.25	47.50