V

Vigorl Multiturn 3b Visual Search

由 gsarch 开发
ViGoRL是一个通过强化学习微调的视觉语言模型,能够将文本推理步骤与视觉坐标明确关联,实现精确的视觉定位和区域级推理。
下载量 981
发布时间 : 6/13/2025

模型简介

ViGoRL(视觉基础强化学习)模型旨在解决视觉推理任务中精确视觉定位和区域级推理的问题。它通过强化学习进行微调,能将文本推理步骤与视觉坐标明确关联,在多种视觉推理任务中表现出色。

模型特点

视觉基础强化学习
通过强化学习(RL)进行微调,将文本推理步骤明确锚定到视觉坐标上。
多轮视觉定位
受人类视觉认知启发,采用多轮视觉定位,动态放大图像区域,执行细粒度视觉推理和定位。
蒙特卡罗树搜索生成的推理轨迹
在通过蒙特卡罗树搜索(MCTS)生成的视觉基础推理轨迹上进行监督微调(SFT)。

模型能力

视觉推理
视觉定位
多轮交互
图像区域放大
坐标关联

使用案例

空间推理
SAT - 2
空间推理任务
BLINK
空间推理任务
RoboSpatial
机器人空间推理
视觉搜索
V*Bench
视觉搜索任务
网页交互与定位
ScreenSpot(Pro和V2)
网页交互与定位任务
VisualWebArena
网页交互与定位任务
AIbase
智启未来,您的人工智能解决方案智库
简体中文