TreeVGR-7B-CI开源视觉定位推理模型 - 提供准确位置及可解释推理路径

首页

Treevgr 7B CI

由 HaochenWang 开发

TreeVGR-7B 是一个可追溯证据增强的视觉定位推理模型，通过强化学习联合监督定位和推理，实现准确的定位和可解释的推理路径。

文本生成图像

Transformers

开源协议:Apache-2.0 #视觉定位推理 #可追溯证据增强 #二阶推理能力

下载量 115

发布时间 : 7/3/2025

模型简介

TreeVGR-7B 是一个先进的开源视觉定位推理模型，基于 Qwen2.5-VL-7B 初始化，在多个基准测试中表现出色。

模型特点

可追溯证据增强

通过强化学习联合监督定位和推理，实现准确的定位和可解释的推理路径。

复杂场景处理

能够处理密集对象的复杂场景，并聚焦于细微目标的视觉感知。

二阶推理能力

测试对象交互和空间层次结构，而不仅仅是简单的对象定位。

模型能力

视觉定位推理

复杂场景分析

二阶推理

可解释性推理路径

使用案例

视觉问答

TreeBench 评估

在 TreeBench 上进行视觉问答评估，测试模型的视觉感知和推理能力。

在 TreeBench 上准确率达到 49.38%，Mean IoU 为 43.3。

视觉定位

V* Bench 评估

在 V* Bench 上进行视觉定位评估，测试模型的定位能力。

性能提升 16.8%。

🚀 TreeVGR-7B：可追溯证据增强的视觉定位推理模型

本仓库包含 TreeVGR-7B 模型，这是一个先进的开源视觉定位推理模型，相关内容可见于论文 Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology。

✨ 主要特性

像 OpenAI-o3 这样的模型通过动态引用视觉区域开创了视觉定位推理的先河，就像人类“用图像思考”一样。然而，目前还没有一个全面评估这些能力的基准。为了填补这一空白，我们提出了 TreeBench（可追溯证据评估基准），这是一个基于三个原则构建的诊断基准：

复杂场景中对细微目标的聚焦视觉感知；
通过边界框评估实现可追溯证据；
二阶推理，以测试对象交互和空间层次结构，而不仅仅是简单的对象定位。

我们优先选择包含密集对象的图像，最初从 SA-1B 中采样 1000 张高质量图像，并邀请八位大语言模型（LMM）专家为每张图像手动标注问题、候选选项和答案。经过三个阶段的质量控制，TreeBench 包含 405 个具有挑战性的视觉问答对，即使是最先进的模型在这个基准上也面临困难，没有一个模型的准确率达到 60%，例如 OpenAI-o3 的得分仅为 54.87。

此外，我们还引入了 TreeVGR（可追溯证据增强的视觉定位推理），这是一种通过强化学习联合监督定位和推理的训练范式，能够实现准确的定位和可解释的推理路径。该模型基于 Qwen2.5-VL-7B 初始化，在 V* Bench（提升 16.8）、MME-RealWorld（提升 12.6）和 TreeBench（提升 13.4）上取得了显著的改进，证明了可追溯性是推进视觉定位推理的关键。

TreeBench 概述

📦 安装指南

pip3 install -r requirements.txt
pip3 install flash-attn --no-build-isolation -v

💻 使用示例

基础用法

本仓库提供了一个在 TreeBench 上进行 TreeVGR 简单本地推理的演示。首先，克隆本仓库：

git clone https://github.com/Haochen-Wang409/TreeVGR
cd TreeVGR

然后，运行 inference_treebench.py：

python3 inference_treebench.py

运行结果应如下所示：

Perception/Attributes 18/29=62.07
Perception/Material 7/13=53.85
Perception/Physical State 19/23=82.61
Perception/Object Retrieval 10/16=62.5
Perception/OCR 42/68=61.76
Reasoning/Perspective Transform 19/85=22.35
Reasoning/Ordering 20/57=35.09
Reasoning/Contact and Occlusion 25/41=60.98
Reasoning/Spatial Containment 20/29=68.97
Reasoning/Comparison 20/44=45.45
==> Overall 200/405=49.38
==> Mean IoU: 43.3

该结果与论文中的结果略有不同，因为我们主要使用了 VLMEvalKit 进行更全面的评估。

📚 详细文档

Hugging Face 资源

基准

TreeBench

模型检查点

训练数据集

引用

如果您发现本工作对您的研究和应用有帮助，请使用以下 BibTeX 进行引用：

@article{wang2025traceable,
  title={Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology},
  author={Haochen Wang and Xiangtai Li and Zilong Huang and Anran Wang and Jiacong Wang and Tao Zhang and Jiani Zheng and Sule Bai and Zijian Kang and Jiashi Feng and Zhuochen Wang and Zhaoxiang Zhang},
  journal={arXiv preprint arXiv:2507.07999},
  year={2025}
}

致谢

我们衷心感谢以下项目：

Qwen2.5-VL：我们使用的基础模型；
VGR：我们的监督微调（SFT）数据集的来源；
V* 和 VisDrone：我们的强化学习（RL）数据集的图像来源；
SA-1B：我们的 TreeBench 图像来源；
LLaMA-Factory：我们使用的 SFT 代码库；
EasyR1：我们使用的 RL 代码库。

📄 许可证

本项目采用 Apache-2.0 许可证。

属性	详情
模型类型	可追溯证据增强的视觉定位推理模型
训练数据	HaochenWang/TreeBench、HaochenWang/TreeVGR-RL-37K、HaochenWang/TreeVGR-SFT-35K