SpaceThinker-Qwen2.5VL-3B-GGUF开源多模态模型 - 支持空间推理与视觉问答

首页

Spacethinker Qwen2.5VL 3B GGUF

由 mradermacher 开发

SpaceThinker-Qwen2.5VL-3B是一个3B参数的多模态视觉语言模型，专注于空间推理和视觉问答任务。

文本生成图像英语开源协议:Apache-2.0 #多模态空间推理 #视觉问答合成 #机器人具身智能

下载量 313

发布时间 : 4/18/2025

模型简介

该模型基于Qwen2.5VL架构，专注于定量空间推理、距离估计和视觉问答合成等任务，适用于机器人技术和具身人工智能领域。

模型特点

多模态能力

同时处理视觉和语言输入，实现跨模态理解

空间推理

专门优化用于定量空间推理和距离估计任务

量化支持

提供多种量化版本，适应不同硬件需求

机器人应用

特别适合具身人工智能和机器人技术应用场景

模型能力

视觉问答

空间推理

距离估计

多模态理解

图像-文本交互

使用案例

机器人技术

环境导航

帮助机器人理解空间关系进行导航

物体定位

估计物体间的相对位置和距离

教育

空间推理教学

用于空间概念和几何关系的可视化教学

🚀 SpaceThinker-Qwen2.5VL-3B量化模型

本项目提供了remyxai/SpaceThinker-Qwen2.5VL-3B模型的静态量化版本，可用于多模态任务，如空间推理、视觉问答等。

🚀 快速开始

如果你不确定如何使用GGUF文件，请参考TheBloke的README以获取更多详细信息，包括如何拼接多部分文件。

✨ 主要特性

多模态支持：支持处理图像和文本等多种模态的数据。
空间推理能力：具备空间推理和定量空间推理能力。
多种量化类型：提供多种不同大小和质量的量化版本供选择。

📦 安装指南

文档未提供具体安装步骤，可参考上述快速开始部分的使用说明。

📚 详细文档

模型信息

属性	详情
基础模型	remyxai/SpaceThinker-Qwen2.5VL-3B
数据集	remyxai/SpaceThinker
语言	en
库名称	transformers
许可证	apache - 2.0
量化者	mradermacher
标签	remyx, qwen2.5 - vl, spatial - reasoning, multimodal, vlm, vqasynth, thinking, reasoning, test - time - compute, robotics, embodied - ai, quantitative - spatial - reasoning, distance - estimation, visual - question - answering

关于量化版本

https://huggingface.co/remyxai/SpaceThinker-Qwen2.5VL-3B的静态量化版本。加权/矩阵量化文件可在这里获取。

提供的量化版本

（按大小排序，不一定按质量排序。IQ量化通常优于类似大小的非IQ量化）

链接	类型	大小/GB	备注
GGUF	Q2_K	1.4
GGUF	Q3_K_S	1.6
GGUF	Q3_K_M	1.7	质量较低
GGUF	Q3_K_L	1.8
GGUF	IQ4_XS	1.9
GGUF	Q4_K_S	1.9	快速，推荐
GGUF	Q4_K_M	2.0	快速，推荐
GGUF	Q5_K_S	2.3
GGUF	Q5_K_M	2.3
GGUF	Q6_K	2.6	质量非常好
GGUF	Q8_0	3.4	快速，质量最佳
GGUF	f16	6.3	16 bpw，可能过度