license: apache-2.0
datasets:
- remyxai/OpenSpaces
tags:
- remyx
- vqasynth
- 空间推理
- 多模态
- vlm
- 视觉语言
- 机器人
- 距离估计
- 具身智能
- 定量空间推理
base_model:
- Qwen/Qwen2.5-VL-3B-Instruct
language:
- en
pipeline_tag: 图像文本到文本
new_version: remyxai/SpaceThinker-Qwen2.5VL-3B
library_name: transformers
SpaceQwen2.5-VL-3B-Instruct
- 模型类型: 多模态视觉语言模型
- 架构:
Qwen2.5-VL-3B-Instruct
- 模型规模: 37.5亿参数(FP16)
- 微调基础: Qwen/Qwen2.5-VL-3B-Instruct
- 微调策略: LoRA(低秩适配)
- 许可协议: Apache-2.0
模型概述
本模型采用数据合成技术和公开模型,复现了SpatialVLM论文中增强多模态模型空间推理能力的工作。通过专家模型流水线,我们可以推断场景中物体间的空间关系,构建用于空间推理的视觉问答数据集。
运行SpaceQwen2.5-VL-3B-Instruct
Transformers
安装qwen依赖:
pip install qwen-vl-utils[decord]==0.0.8
运行示例图片推理:
from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
"remyxai/SpaceQwen2.5-VL-3B-Instruct", torch_dtype="auto", device_map="auto"
)
processor = AutoProcessor.from_pretrained("remyxai/SpaceQwen2.5-VL-3B-Instruct")
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": "https://raw.githubusercontent.com/remyxai/VQASynth/refs/heads/main/assets/warehouse_sample_2.jpeg",
},
{"type": "text", "text": "戴红帽子的男子身高是多少英尺?"},
],
}
]
text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)
GGUF方案
或使用llama.cpp运行:
./llama-qwen2vl-cli -m /path/to/SpaceQwen2.5-VL-3B-Instruct/SpaceQwen2.5-VL-3B-Instruct-F16.gguf \
--mmproj /path/to/SpaceQwen2.5-VL-3B-Instruct/spaceqwen2.5-vl-3b-instruct-vision.gguf \
-p "戴红帽子的男子身高是多少?" \
--image /path/to/warehouse_sample_2.jpeg --threads 24 -ngl 99
数据集与训练
SpaceQwen2.5-VL-3B-Instruct采用LoRA方法对Qwen2.5-VL-3B-Instruct进行微调,训练数据来自OpenSpaces数据集。
数据集摘要:
LoRA监督微调脚本详见trl
模型评估(即将发布)
敬请期待VLMEvalKit QSpatial基准测试
计划对比模型:
您也可以通过Discord或HuggingFace空间体验。
⚠️ 局限性与伦理考量
- 在杂乱环境或特殊拍摄视角下性能可能下降
- 本模型基于网络图像数据集通过合成推理微调
- 基础模型(Qwen2.5-VL)的多模态偏差可能仍然存在
- 不适用于安全关键或法律决策场景
建议用户批判性评估输出结果,并根据具体领域需求进行安全性和性能微调
引用文献
@article{chen2024spatialvlm,
title = {SpatialVLM:赋予视觉语言模型空间推理能力},
author = {陈博元, 徐卓, 肖恩·基尔马尼等},
journal = {arXiv预印本 arXiv:2401.12168},
year = {2024},
url = {https://arxiv.org/abs/2401.12168},
}
@misc{qwen2.5-VL,
title = {Qwen2.5-VL},
url = {https://qwenlm.github.io/blog/qwen2.5-vl/},
author = {Qwen团队},
month = {1月},
year = {2025}
}