SpaceOm-GGUF开源多模态模型 - 免费用于视觉问答与空间推理任务

首页

Spaceom GGUF

由 mgonzs13 开发

SpaceOm-GGUF 是一款专注于视觉问答任务的多模态模型，在空间推理方面表现出色。

文本生成图像英语开源协议:Apache-2.0 #视觉问答 #空间推理 #多模态模型

下载量 196

发布时间 : 6/11/2025

模型简介

SpaceOm-GGUF 是基于特定数据集训练的多模态模型，擅长视觉问答和空间推理任务，可用于图像文本转换。

模型特点

增强的空间推理能力

在 SpaceThinker 基础上改进，通过更长的推理轨迹训练提升空间理解能力

机器人领域优化

使用 Robo2VLM-Reasoning 数据集训练，增强机器人应用场景下的表现

多模态融合

结合视觉和语言处理能力，实现高质量的图像文本转换

模型能力

视觉问答

空间推理

图像描述生成

目标定位

空间关系理解

距离估计

使用案例

机器人导航

空间环境理解

帮助机器人理解周围环境的空间布局

在 SpatialScore 基准测试中目标定位得分 54.00

教育

视觉问答系统

回答关于图像内容的复杂空间问题

在 SpaCE-10 基准测试中目标-目标空间关系得分 50.00

🚀 SpaceOm-GGUF

SpaceOm-GGUF 是一款专注于视觉问答任务的多模态模型，在空间推理方面表现出色。它基于特定数据集进行训练，在多个基准测试中展现了良好的性能，可用于图像文本转换任务。

🚀 快速开始

模型基本信息

模型创建者：remyxai
原始模型：SpaceOm
GGUF 量化：llama.cpp 提交版本 2baf07727f921d9a4a1b63a2eff941e95d0488ed

模型概览

模型示例

SpaceOm 在 SpaceThinker 的基础上进行了改进，具体如下：

在 LoRA 微调中添加了目标模块 o_proj。
使用 SpaceOm 数据集进行更长推理轨迹的训练。
使用 Robo2VLM-Reasoning 数据集进行更多机器人领域和 MCVQA 示例的训练。

在 LoRA 微调中选择将 o_proj 作为目标模块之一，是受到了此处研究的启发，该研究论证了此模块在推理模型中的重要性。

SpaceThinker 数据集中的推理轨迹平均约有 200 个“思考”标记，因此我们在训练数据中加入了更长的推理轨迹，以帮助模型在推理时使用更多标记。

为了提高机器人应用的对齐性，我们使用了从 Robo2VLM-1 数据集派生的合成推理轨迹进行训练。

模型评估

SpatialScore - 3B 和 4B 模型

模型	总体	计数	目标定位	位置关系	距离	目标属性	相机与图像变换	跟踪	其他
SpaceQwen2.5-VL-3B	42.31	45.01	49.78	57.88	27.36	34.11	26.34	26.44	43.58
SpatialBot-Phi2-3B	41.65	53.23	54.32	55.40	27.12	26.10	24.21	27.57	41.66
Kimi-VL-3B	51.48	49.22	61.99	61.34	38.27	46.74	33.75	56.28	47.23
Kimi-VL-3B-Thinking	52.60	52.66	58.93	63.28	39.38	42.57	32.00	46.97	42.73
Qwen2.5-VL-3B	47.90	46.62	55.55	62.23	32.39	32.97	30.66	36.90	42.19
InternVL2.5-4B	49.82	53.32	62.02	62.02	32.80	27.00	32.49	37.02	48.95
SpaceOm (3B)	49.00	56.00	54.00	65.00	41.00	50.00	36.00	42.00	47.00

查看所有结果以了解 SpaceOm 在 SpatialScore 基准测试中的评估情况。

与 SpaceQwen 相比，该模型在所有类别中均表现更优。

SpatialScore 对比图

与 SpaceThinker 相比：

与 SpaceThinker 对比图

SpaCE-10 基准测试对比

此表对比了使用 GPT 评分评估的 SpaceOm 与 SpaCE-10 基准测试排行榜上的几个顶级模型。每个类别中的最高分以粗体显示。

模型	实体量化	场景量化	大小评估	目标 - 目标空间关系	目标 - 场景空间关系	实体存在	功能推理	空间规划	来源
SpaceOm	32.47	24.81	47.63	50.00	32.52	9.12	37.04	25.00	GPT 评估
Qwen2.5-VL-7B-Instruct	32.70	31.00	41.30	32.10	27.60	15.40	26.30	27.50	表格
LLaVA-OneVision-7B	37.40	36.20	42.90	44.20	27.10	11.20	45.60	27.20	表格
VILA1.5-7B	30.20	38.60	39.90	44.10	16.50	35.10	30.10	37.60	表格
InternVL2.5-4B	34.30	34.40	43.60	44.60	16.10	30.10	33.70	36.70	表格

图例：

EQ：实体量化
SQ：场景量化
SA：大小评估
OO：目标 - 目标空间关系
OS：目标 - 场景空间关系
EP：实体存在
FR：功能推理
SP：空间规划

ℹ️ 注意：SpaceOm 的分数是通过 gpt_eval_score 在 SpaCE-10 基准测试任务的单项选择（*-single）版本上生成的。其他条目反映了官方 SpaCE-10 评估表中的排行榜准确率分数。

阅读更多关于 SpaCE-10 基准测试的信息。

局限性

在杂乱环境或相机视角下，性能可能会下降。
该模型是在互联网图像数据集上使用合成推理进行微调的。
基础模型（Qwen2.5-VL）固有的多模态偏差可能仍然存在。
不适合用于安全关键或法律决策。

建议用户批判性地评估输出结果，并考虑针对特定领域的安全性和性能进行微调。使用自回归变压器估计的距离可能有助于规划和行为的高阶推理，但可能不适合替代高精度传感器、校准立体视觉系统或能够进行更准确的逐像素预测和实时性能的专业单目深度估计模型所进行的测量。

许可证

本模型采用 Apache-2.0 许可证。

引用

@article{chen2024spatialvlm,
  title = {SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities},
  author = {Chen, Boyuan and Xu, Zhuo and Kirmani, Sean and Ichter, Brian and Driess, Danny and Florence, Pete and Sadigh, Dorsa and Guibas, Leonidas and Xia, Fei},
  journal = {arXiv preprint arXiv:2401.12168},
  year = {2024},
  url = {https://arxiv.org/abs/2401.12168},
}

@misc{qwen2.5-VL,
  title = {Qwen2.5-VL},
  url = {https://qwenlm.github.io/blog/qwen2.5-vl/},
  author = {Qwen Team},
  month = {January},
  year = {2025}
}

@misc{vl-thinking2025,
  title={SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models },
  author={Hardy Chen and Haoqin Tu and Fali Wang and Hui Liu and Xianfeng Tang and Xinya Du and Yuyin Zhou and Cihang Xie},
  year = {2025},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/UCSC-VLAA/VLAA-Thinking}},
}

@article{wu2025spatialscore,
    author    = {Wu, Haoning and Huang, Xiao and Chen, Yaohui and Zhang, Ya and Wang, Yanfeng and Xie, Weidi},
    title     = {SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding},
    journal   = {arXiv preprint arXiv:2505.17012},
    year      = {2025},
}

@article{gong2025space10,
  title     = {SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence},
  author    = {Ziyang Gong and Wenhao Li and Oliver Ma and Songyuan Li and Jiayi Ji and Xue Yang and Gen Luo and Junchi Yan and Rongrong Ji},
  journal   = {arXiv preprint arXiv:2506.07966},
  year      = {2025},
  url       = {https://arxiv.org/abs/2506.07966}
}