🚀 ViGoRL:用于视觉推理的视觉基础强化学习
ViGoRL(视觉基础强化学习)模型旨在解决视觉推理任务中精确视觉定位和区域级推理的问题。它通过强化学习进行微调,能将文本推理步骤与视觉坐标明确关联,在多种视觉推理任务中表现出色。
🚀 快速开始
你可以使用Hugging Face的Transformers库轻松加载此模型:
from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
import torch
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
"gsarch/ViGoRL-Multiturn-3b-Visual-Search",
torch_dtype=torch.bfloat16,
attn_implementation="flash_attention_2",
device_map="auto",
)
processor = AutoProcessor.from_pretrained("gsarch/ViGoRL-Multiturn-3b-Visual-Search")
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": "path/to/image.png",
},
{"type": "text", "text": "QUERY HERE"},
],
}
]
text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
generated_ids = model.generate(**inputs, max_new_tokens=512)
generated_ids_trimmed = [
out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)
⚠️ 重要提示
此模型的正确使用需要系统提示。具体细节请参阅模型的聊天模板。
✨ 主要特性
- 视觉基础强化学习:ViGoRL是一个视觉语言模型,通过强化学习(RL)进行微调,能将文本推理步骤明确锚定到视觉坐标上。
- 多轮视觉定位:受人类视觉认知的启发,ViGoRL采用多轮视觉定位,动态放大图像区域,以执行细粒度的视觉推理和定位。
📚 详细文档
模型概述
ViGoRL是一个视觉语言模型,通过强化学习(RL)进行微调,将文本推理步骤明确锚定到视觉坐标上。受人类视觉认知的启发,ViGoRL采用多轮视觉定位,动态放大图像区域,以执行细粒度的视觉推理和定位。
该模型首先在通过蒙特卡罗树搜索(MCTS)生成的视觉基础推理轨迹上进行监督微调(SFT),然后使用组相对策略优化(GRPO)进行强化学习。
模型详情
属性 |
详情 |
基础架构 |
Qwen2.5视觉语言模型(30亿或70亿参数) |
训练范式 |
1. 在MCTS生成的推理轨迹上进行监督微调 2. 组相对策略优化(GRPO) 3. 带有动态放大反馈的多轮视觉定位(如果名称中包含“Multiturn”) |
使用场景
该模型在需要精确视觉定位和区域级推理的视觉推理任务中表现出色。具体领域请参阅模型名称。
- 空间推理:SAT - 2、BLINK、RoboSpatial
- 视觉搜索:V*Bench
- 网页交互与定位:ScreenSpot(Pro和V2)、VisualWebArena
数据集和训练数据
训练数据集和生成的推理链是公开可用的:
引用
如果你在研究或应用中使用了ViGoRL,请引用我们的论文:
@article{sarch2025vigorl,
title={Grounded Reinforcement Learning for Visual Reasoning},
author={Sarch, Gabriel and Saha, Snigdha and Khandelwal, Naitik and Jain, Ayush and Tarr, Michael J and Kumar, Aviral and Fragkiadaki, Katerina},
year={2025}
}
联系信息
如有问题、反馈或合作需求,请联系Gabriel Sarch,或在我们的GitHub仓库中提出问题。
作者:Gabriel Sarch、Snigdha Saha、Naitik Khandelwal、Ayush Jain、Michael J. Tarr、Aviral Kumar、Katerina Fragkiadaki
本模型卡片描述了ViGoRL(视觉基础强化学习)模型,该模型在我们的论文"Grounded Reinforcement Learning for Visual Reasoning"中被提出。