license: apache-2.0
datasets:
- remyxai/SpaceThinker
base_model:
- UCSC-VLAA/VLAA-Thinker-Qwen2.5VL-3B
tags:
- remyx
- qwen2.5-vl
- spatial-reasoning
- multimodal
- vlm
- vqasynth
- thinking
- reasoning
- test-time-compute
- robotics
- embodied-ai
- quantitative-spatial-reasoning
- distance-estimation
- visual-question-answering
language:
- en
pipeline_tag: image-text-to-text
library_name: transformers
model-index:
- name: SpaceThinker-Qwen2.5VL-3B
results:
- task:
type: visual-question-answering
name: Spatial Reasoning
dataset:
name: Q-Spatial-Bench
type: custom
metrics:
- type: success_rate
value: 0.3226
name: Overall Success Rate
results_by_distance_bucket:
- name: 0-10cm
count: 7
successes: 3
success_rate: 0.4286
- name: 10-30cm
count: 28
successes: 5
success_rate: 0.1786
- name: 30-60cm
count: 16
successes: 8
success_rate: 0.5
- name: 60-100cm
count: 17
successes: 9
success_rate: 0.5294
- name: 100-200cm
count: 19
successes: 4
success_rate: 0.2105
- name: 200cm+
count: 6
successes: 1
success_rate: 0.1667

SpaceThinker-Qwen2.5VL-3B

📚 目录
在线体验空间思维者

模型概览
SpaceThinker-Qwen2.5VL-3B 是一款通过测试时计算增强空间推理能力的多模态/视觉语言模型(VLM),基于 UCSC-VLAA/VLAA-Thinker-Qwen2.5VL-3B
微调,训练数据来自VQASynth管道生成的合成推理轨迹。
- 模型类型: 多模态,视觉语言模型
- 架构:
Qwen2.5-VL-3B
- 模型大小: 37.5亿参数(FP16)
- 微调基础模型:
UCSC-VLAA/VLAA-Thinker-Qwen2.5VL-3B
- 微调策略: LoRA(低秩适应)
- 许可证: Apache-2.0
查看SpaceThinker系列
空间推理能力
强大的定量空间推理能力对于需要规划和导航3D空间的具身AI应用(如机器人和无人机)至关重要。SpaceThinker通过测试时计算提升能力,训练样本基于对场景观察的一致解释来支撑最终回答。
- 增强的定量空间推理(如距离、大小)
- 基于物体关系的推理(如左侧、上方、包含、最近)
空间思维者示例
以下是SpaceThinker-Qwen2.5VL-3B视觉问答的示例图像/提示
 |
 |
 |
提示: 戴红帽子的男子距离地板上的箱子托盘有多远(英尺)? |
提示: 这张图片中点球手距离球门有多远? |
提示: 椅子和书架大约相距多少米? |
推理: 要确定戴红帽子的男子与箱子托盘的距离,需要考虑仓库中的空间布局。男子走在地板上,与托盘之间有可见间隙。首先估算托盘尺寸,标准托盘通常宽约4英尺,长约8英尺。男子站在托盘边缘附近,可能距离托盘前缘约2-3英尺。接着考虑过道宽度约6-7英尺。综合判断,戴红帽子的男子距离箱子托盘约2-3英尺。 |
推理: 观察到穿红色球衣的球员站在球门附近。标准足球门柱延伸2.5米。球员站位接近但不在球门线上。根据点球场景常规设置,球员站位应比球门更靠后。视觉估计球员距离球门约10-15米,符合点球常规距离。因此点球手距离球门约10-15米。 |
推理: 估算椅子和书架距离需考虑物体典型尺寸。标准办公椅高约60-70厘米,书架高1.2-1.8米。假设椅子置于地面,书架顶部高度差约1米。考虑房间布局和相对位置,椅子和书架顶部总距离约1米。因此两者相距约1米。 |
答案: 2-3英尺 |
答案: 10-15米 |
答案: 1米 |
SpaceThinker展示了基于定量空间推理的能力——通过整合视觉线索、现实物体先验和人类空间逻辑,推断精确距离、解释3D场景上下文并给出精准的开放式答案。
了解更多关于使用测试时计算增强多模态定量空间推理的信息。
运行空间思维者
体验SpaceThinker空间

使用llama.cpp本地运行,安装并构建此分支,下载.gguf权重
./llama-qwen2vl-cli -m spacethinker-qwen2.5VL-3B-F16.gguf
--mmproj spacethinker-qwen2.5vl-3b-vision.gguf
--image images/example_1.jpg --threads 24 -ngl 9
-p "穿蓝衬衫工作的男子身高是否比地板上的木制箱子托盘更高?"
在Colab中使用llama.cpp运行

或使用Transformers本地运行
import torch
from PIL import Image
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
import requests
from io import BytesIO
model_id = "remyxai/SpaceThinker-Qwen2.5VL-3B"
image_path = "images/