VARGPT-v1.1开源大模型 - 免费实现视觉理解与图像生成双重任务

首页

VARGPT V1.1

由 VARGPT-family 开发

VARGPT-v1.1是一个视觉自回归统一大模型，通过迭代指令调优与强化学习提升，能够同时实现视觉理解和生成任务。

文本生成图像

Transformers

英语开源协议:Apache-2.0 #视觉自回归统一模型 #多模态理解生成 #迭代指令调优

下载量 954

发布时间 : 4/1/2025

模型简介

VARGPT-v1.1是一个多模态大语言模型，支持视觉理解和生成任务。通过预测下一标记实现视觉理解，通过预测下一尺度实现视觉生成。

模型特点

统一理解与生成

在单一模型中同时实现视觉理解和生成任务

迭代指令调优

通过迭代指令调优提升模型性能

强化学习优化

利用强化学习进一步优化模型表现

多模态支持

支持文本和图像的输入与输出

模型能力

多模态理解

文本到图像生成

图像描述生成

视觉问答

使用案例

创意设计

专辑封面设计

根据文本描述生成幻想风格的专辑封面

生成符合描述的图像

内容理解

表情包解释

详细解释表情包的内容和含义

生成详细的文本解释

🚀 VARGPT-v1.1：通过迭代指令调优和强化学习改进视觉自回归大型统一模型

VARGPT-v1.1是一个视觉自回归大型统一模型，它将理解和生成建模为统一模型中的两种不同范式，即通过预测下一个标记进行视觉理解，通过预测下一个尺度进行视觉生成。本项目提供了模型的简单使用示例，更多详情可参考GitHub仓库。

模型相关图片

🚀 快速开始

VARGPT-v1.1 (7B + 2B) 将理解和生成建模为统一模型中的两种不同范式：通过预测下一个标记进行视觉理解，通过预测下一个尺度进行视觉生成。

我们提供了使用该模型的简单生成过程。如需更多详细信息，您可以参考 GitHub。

✨ 主要特性

多模态理解：能够对图像和文本等多模态信息进行理解和分析。
多模态生成：支持文本到图像的生成任务。

💻 使用示例

基础用法

多模态理解

以下是多模态理解的推理示例代码：

# Or execute the following code
import requests
from PIL import Image
import torch
from transformers import AutoProcessor, AutoTokenizer
from vargpt_qwen_v1_1.modeling_vargpt_qwen2_vl import VARGPTQwen2VLForConditionalGeneration
from vargpt_qwen_v1_1.prepare_vargpt_v1_1 import prepare_vargpt_qwen2vl_v1_1 
from vargpt_qwen_v1_1.processing_vargpt_qwen2_vl import VARGPTQwen2VLProcessor
from patching_utils.patching import patching

model_id = "VARGPT-family/VARGPT-v1.1"

prepare_vargpt_qwen2vl_v1_1(model_id)

model = VARGPTQwen2VLForConditionalGeneration.from_pretrained(
    model_id, 
    torch_dtype=torch.float32, 
    low_cpu_mem_usage=True, 
).to(0)

patching(model)

tokenizer = AutoTokenizer.from_pretrained(model_id)
processor = VARGPTQwen2VLProcessor.from_pretrained(model_id)

# Define a chat history and use `apply_chat_template` to get correctly formatted prompt
# Each value in "content" has to be a list of dicts with types ("text", "image") 
conversation = [
    {
      "role": "user",
      "content": [
          {"type": "text", "text": "Please explain the meme in detail."},
          {"type": "image"},
        ],
    },
]
prompt = processor.apply_chat_template(conversation, add_generation_prompt=True)
image_file = "./assets/llava_bench_demo.png"
print(prompt)

raw_image = Image.open(image_file)
inputs = processor(images=[raw_image], text=prompt, return_tensors='pt').to(0, torch.float32)

output = model.generate(
    **inputs, 
    max_new_tokens=2048, 
    do_sample=False)

print(processor.decode(output[0], skip_special_tokens=True))

多模态生成

以下是文本到图像生成的推理示例代码：

import requests
from PIL import Image
import torch
from transformers import AutoProcessor, AutoTokenizer
from vargpt_qwen_v1_1.modeling_vargpt_qwen2_vl import VARGPTQwen2VLForConditionalGeneration
from vargpt_qwen_v1_1.prepare_vargpt_v1_1 import prepare_vargpt_qwen2vl_v1_1 
from vargpt_qwen_v1_1.processing_vargpt_qwen2_vl import VARGPTQwen2VLProcessor
from patching_utils.patching import patching
model_id = "VARGPT-family/VARGPT-v1.1"

prepare_vargpt_qwen2vl_v1_1(model_id)

model = VARGPTQwen2VLForConditionalGeneration.from_pretrained(
    model_id, 
    torch_dtype=torch.float32,     
    low_cpu_mem_usage=True, 
).to(0)

patching(model)
tokenizer = AutoTokenizer.from_pretrained(model_id)
processor = VARGPTQwen2VLProcessor.from_pretrained(model_id)

conversation = [
    {
      "role": "user",
      "content": [
          {"type": "text", "text": "Can you depict a scene of A power metalalbum cover featuring a fantasy-style illustration witha white falcon."},
        ],
    },
]
prompt = processor.apply_chat_template(conversation, add_generation_prompt=True)
print(prompt)

inputs = processor(text=prompt, return_tensors='pt').to(0, torch.float32)
model._IMAGE_GEN_PATH = "output.png"
output = model.generate(
    **inputs, 
    max_new_tokens=4096, 
    do_sample=False)

print(processor.decode(output[0][:-1], skip_special_tokens=True))

📚 详细文档

本项目使用的数据集和模型相关信息如下：

属性	详情
模型类型	VARGPT-v1.1
训练数据	VARGPT-family/VARGPT_datasets
评估指标	准确率、F1值
任务类型	任意到任意
库名称	transformers
许可证	Apache-2.0

📄 许可证

本项目采用 Apache-2.0 许可证。

📚 引用

若要引用本项目的数据集和模型，请使用以下 BibTeX 格式：

@misc{zhuang2025vargptunifiedunderstandinggeneration,
      title={VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model}, 
      author={Xianwei Zhuang and Yuxin Xie and Yufan Deng and Liming Liang and Jinghan Ru and Yuguo Yin and Yuexian Zou},
      year={2025},
      eprint={2501.12327},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2501.12327}, 
}
@misc{zhuang2025vargptv11improvevisualautoregressive,
      title={VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning}, 
      author={Xianwei Zhuang and Yuxin Xie and Yufan Deng and Dongchao Yang and Liming Liang and Jinghan Ru and Yuguo Yin and Yuexian Zou},
      year={2025},
      eprint={2504.02949},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2504.02949}, 
}