V

Vigorl 7b Spatial

由 gsarch 开发
ViGoRL 是一个通过强化学习微调的视觉语言模型,用于将文本推理步骤与视觉坐标明确关联,实现精确的视觉推理和定位。
下载量 319
发布时间 : 6/19/2025

模型简介

ViGoRL 是一个视觉语言模型,通过强化学习(RL)进行微调,以将文本推理步骤明确锚定到视觉坐标。受人类视觉认知的启发,ViGoRL 采用多轮视觉定位,动态缩放图像区域以执行细粒度的视觉推理和定位。

模型特点

多轮视觉定位
受人类视觉认知的启发,ViGoRL 采用多轮视觉定位,动态缩放图像区域,以执行细粒度的视觉推理和定位。
精确视觉推理
该模型在需要精确视觉定位和区域级推理的视觉推理任务中表现出色。
多种训练范式
模型使用监督微调(SFT)在通过蒙特卡罗树搜索(MCTS)生成的视觉基础推理轨迹上进行训练,随后使用组相对策略优化(GRPO)进行强化学习。

模型能力

视觉推理
视觉定位
多轮交互
动态缩放图像区域

使用案例

空间推理
SAT - 2
用于空间推理任务
BLINK
用于空间推理任务
RoboSpatial
用于空间推理任务
视觉搜索
V*Bench
用于视觉搜索任务
网页交互和定位
ScreenSpot(Pro 和 V2)
用于网页交互和定位任务
VisualWebArena
用于网页交互和定位任务
AIbase
智启未来,您的人工智能解决方案智库
简体中文