UForm-Gen-Chat开源多模态对话模型 - 免费实现图像描述与视觉问答

首页

Uform Gen Chat

由 unum-cloud 开发

UForm-Gen-Chat是UForm-Gen的多模态对话精调版本，主要用于图像描述生成和视觉问答任务。

图像生成文本

Transformers

英语开源协议:Apache-2.0 #轻量级多模态 #视觉问答 #图像描述生成

下载量 65

发布时间 : 12/27/2023

模型简介

UForm-Gen是一款小型生成式视觉语言模型，包含视觉编码器和基于指令数据集微调的语言模型，适用于图像理解和生成任务。

模型特点

多模态能力

结合视觉和语言处理能力，能够理解和生成与图像相关的内容

轻量级

相比同类模型参数规模较小(1.5B)，适合资源有限的环境

对话优化

专门针对多模态对话场景进行了精调

模型能力

图像描述生成

视觉问答

多模态对话

图像内容理解

使用案例

内容理解

图像描述生成

为输入的图像生成自然语言描述

CLIPScore: 0.860(长文本), 0.858(短文本)

视觉问答

回答关于图像内容的自然语言问题

人机交互

多模态对话

基于图像内容进行自然语言对话

🚀 UForm

UForm是一款轻量级多模态人工智能模型，可用于内容理解与生成，主要聚焦于图像描述和视觉问答任务。

🚀 快速开始

安装

pip install uform

命令行演示

运行以下命令：

uform-chat --model unum-cloud/uform-gen-chat --image_path=zebra.jpg
uform-chat --model unum-cloud/uform-gen-chat --image_path=zebra.jpg --device="cuda:0" --fp16

代码调用

from uform.gen_model import VLMForCausalLM, VLMProcessor

model = VLMForCausalLM.from_pretrained("unum-cloud/uform-gen-chat")
processor = VLMProcessor.from_pretrained("unum-cloud/uform-gen-chat")

prompt = "What do you see?"
image = Image.open("zebra.jpg")

inputs = processor(texts=[prompt], images=[image], return_tensors="pt")
with torch.inference_mode():
     output = model.generate(
        **inputs,
        do_sample=False,
        use_cache=True,
        max_new_tokens=128,
        eos_token_id=32001,
        pad_token_id=processor.tokenizer.pad_token_id
    )

prompt_len = inputs["input_ids"].shape[1]
decoded_text = processor.batch_decode(output[:, prompt_len:])[0]

✨ 主要特性

UForm-Gen是一个小型生成式视觉语言模型，主要用于图像描述和视觉问答。该模型由两部分组成：

UForm视觉编码器
Sheared-LLaMA-1.3B，在指令数据集上进行了手动调优

该模型在以下数据集上进行了预训练：MSCOCO、SBU Captions、Visual Genome、VQAv2、GQA和一些内部数据集。UForm-Gen-Chat是UForm-Gen的SFT版本，用于多模态聊天。

🔧 技术细节

评估指标

在图像描述评估中，我们使用CLIPScore和RefCLIPScore¹进行衡量。

模型	规模	描述长度	CLIPScore	RefCLIPScore
`llava-hf/llava-1.5-7b-hf`	7B	长描述	0.878	0.529
`llava-hf/llava-1.5-7b-hf`	7B	短描述	0.886	0.531
`Salesforce/instructblip-vicuna-7b`	7B	长描述	0.902	0.534
`Salesforce/instructblip-vicuna-7b`	7B	短描述	0.848	0.523
`unum-cloud/uform-gen-chat`	1.5B	长描述	0.860	0.525
`unum-cloud/uform-gen-chat`	1.5B	短描述	0.858	0.525