S

Spaceqwen2.5 VL 3B Instruct

由 remyxai 开发
基于Qwen2.5-VL-3B-Instruct微调的多模态视觉语言模型,专注于空间推理能力
下载量 7,446
发布时间 : 1/29/2025
模型介绍
内容详情
替代品

模型简介

该模型通过LoRA微调增强了空间推理能力,能够处理与物体间空间关系相关的视觉问答任务,适用于机器人导航、具身智能等场景

模型特点

增强空间推理
通过合成数据训练,专门优化了距离估计、方位判断等空间推理能力
多模态理解
能够同时处理图像和文本输入,理解视觉场景中的物体关系
轻量微调
采用LoRA方法进行高效微调,保持基础模型能力的同时增加特定功能

模型能力

视觉问答
空间关系推理
距离估计
物体定位
多模态理解

使用案例

机器人导航
仓库环境导航
帮助机器人理解仓库环境中物体的空间关系
可准确回答关于物体位置和距离的问题
具身智能
环境交互
为具身智能体提供空间感知能力
使智能体能够更好地与环境互动