🚀 SpaceOm-GGUF
SpaceOm-GGUF 是一款专注于视觉问答任务的多模态模型,在空间推理方面表现出色。它基于特定数据集进行训练,在多个基准测试中展现了良好的性能,可用于图像文本转换任务。
🚀 快速开始
模型基本信息
模型概览

SpaceOm 在 SpaceThinker 的基础上进行了改进,具体如下:
- 在 LoRA 微调中添加了目标模块
o_proj
。
- 使用 SpaceOm 数据集 进行更长推理轨迹的训练。
- 使用 Robo2VLM-Reasoning 数据集 进行更多机器人领域和 MCVQA 示例的训练。
在 LoRA 微调中选择将 o_proj
作为目标模块之一,是受到了 此处 研究的启发,该研究论证了此模块在推理模型中的重要性。
SpaceThinker 数据集中的推理轨迹平均约有 200 个“思考”标记,因此我们在训练数据中加入了更长的推理轨迹,以帮助模型在推理时使用更多标记。
为了提高机器人应用的对齐性,我们使用了从 Robo2VLM-1 数据集 派生的合成推理轨迹进行训练。
模型评估
SpatialScore - 3B 和 4B 模型
模型 |
总体 |
计数 |
目标定位 |
位置关系 |
距离 |
目标属性 |
相机与图像变换 |
跟踪 |
其他 |
SpaceQwen2.5-VL-3B |
42.31 |
45.01 |
49.78 |
57.88 |
27.36 |
34.11 |
26.34 |
26.44 |
43.58 |
SpatialBot-Phi2-3B |
41.65 |
53.23 |
54.32 |
55.40 |
27.12 |
26.10 |
24.21 |
27.57 |
41.66 |
Kimi-VL-3B |
51.48 |
49.22 |
61.99 |
61.34 |
38.27 |
46.74 |
33.75 |
56.28 |
47.23 |
Kimi-VL-3B-Thinking |
52.60 |
52.66 |
58.93 |
63.28 |
39.38 |
42.57 |
32.00 |
46.97 |
42.73 |
Qwen2.5-VL-3B |
47.90 |
46.62 |
55.55 |
62.23 |
32.39 |
32.97 |
30.66 |
36.90 |
42.19 |
InternVL2.5-4B |
49.82 |
53.32 |
62.02 |
62.02 |
32.80 |
27.00 |
32.49 |
37.02 |
48.95 |
SpaceOm (3B) |
49.00 |
56.00 |
54.00 |
65.00 |
41.00 |
50.00 |
36.00 |
42.00 |
47.00 |
查看 所有结果 以了解 SpaceOm 在 SpatialScore 基准测试 中的评估情况。
与 SpaceQwen 相比,该模型在所有类别中均表现更优。

与 SpaceThinker 相比:

SpaCE-10 基准测试对比

此表对比了使用 GPT 评分评估的 SpaceOm
与 SpaCE-10 基准测试排行榜上的几个顶级模型。每个类别中的最高分以 粗体 显示。
模型 |
实体量化 |
场景量化 |
大小评估 |
目标 - 目标空间关系 |
目标 - 场景空间关系 |
实体存在 |
功能推理 |
空间规划 |
来源 |
SpaceOm |
32.47 |
24.81 |
47.63 |
50.00 |
32.52 |
9.12 |
37.04 |
25.00 |
GPT 评估 |
Qwen2.5-VL-7B-Instruct |
32.70 |
31.00 |
41.30 |
32.10 |
27.60 |
15.40 |
26.30 |
27.50 |
表格 |
LLaVA-OneVision-7B |
37.40 |
36.20 |
42.90 |
44.20 |
27.10 |
11.20 |
45.60 |
27.20 |
表格 |
VILA1.5-7B |
30.20 |
38.60 |
39.90 |
44.10 |
16.50 |
35.10 |
30.10 |
37.60 |
表格 |
InternVL2.5-4B |
34.30 |
34.40 |
43.60 |
44.60 |
16.10 |
30.10 |
33.70 |
36.70 |
表格 |
图例:
- EQ:实体量化
- SQ:场景量化
- SA:大小评估
- OO:目标 - 目标空间关系
- OS:目标 - 场景空间关系
- EP:实体存在
- FR:功能推理
- SP:空间规划
ℹ️ 注意:SpaceOm 的分数是通过 gpt_eval_score
在 SpaCE-10 基准测试任务的单项选择(*-single
)版本上生成的。其他条目反映了官方 SpaCE-10 评估表中的排行榜准确率分数。
阅读更多关于 SpaCE-10 基准测试 的信息。
局限性
- 在杂乱环境或相机视角下,性能可能会下降。
- 该模型是在互联网图像数据集上使用合成推理进行微调的。
- 基础模型(Qwen2.5-VL)固有的多模态偏差可能仍然存在。
- 不适合用于安全关键或法律决策。
建议用户批判性地评估输出结果,并考虑针对特定领域的安全性和性能进行微调。使用自回归变压器估计的距离可能有助于规划和行为的高阶推理,但可能不适合替代高精度传感器、校准立体视觉系统或能够进行更准确的逐像素预测和实时性能的专业单目深度估计模型所进行的测量。
许可证
本模型采用 Apache-2.0 许可证。
引用
@article{chen2024spatialvlm,
title = {SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities},
author = {Chen, Boyuan and Xu, Zhuo and Kirmani, Sean and Ichter, Brian and Driess, Danny and Florence, Pete and Sadigh, Dorsa and Guibas, Leonidas and Xia, Fei},
journal = {arXiv preprint arXiv:2401.12168},
year = {2024},
url = {https://arxiv.org/abs/2401.12168},
}
@misc{qwen2.5-VL,
title = {Qwen2.5-VL},
url = {https://qwenlm.github.io/blog/qwen2.5-vl/},
author = {Qwen Team},
month = {January},
year = {2025}
}
@misc{vl-thinking2025,
title={SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models },
author={Hardy Chen and Haoqin Tu and Fali Wang and Hui Liu and Xianfeng Tang and Xinya Du and Yuyin Zhou and Cihang Xie},
year = {2025},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/UCSC-VLAA/VLAA-Thinking}},
}
@article{wu2025spatialscore,
author = {Wu, Haoning and Huang, Xiao and Chen, Yaohui and Zhang, Ya and Wang, Yanfeng and Xie, Weidi},
title = {SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding},
journal = {arXiv preprint arXiv:2505.17012},
year = {2025},
}
@article{gong2025space10,
title = {SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence},
author = {Ziyang Gong and Wenhao Li and Oliver Ma and Songyuan Li and Jiayi Ji and Xue Yang and Gen Luo and Junchi Yan and Rongrong Ji},
journal = {arXiv preprint arXiv:2506.07966},
year = {2025},
url = {https://arxiv.org/abs/2506.07966}
}