S

Spatialbot 3B

由 RussRobin 开发
SpatialBot是一款具备空间理解与推理能力的视觉语言模型,能精准解析深度图并执行高级任务。
下载量 301
发布时间 : 7/17/2024
模型介绍
内容详情
替代品

模型简介

基于Phi-2和SigLIP架构开发的融合版视觉语言模型,在常规视觉语言任务及空间理解基准测试中表现优异。

模型特点

空间理解能力
能够精准解析深度图并进行空间推理
多模态处理
同时处理视觉和语言输入,实现跨模态理解
高效架构
基于Phi-2和SigLIP的高效架构设计

模型能力

深度图解析
空间推理
视觉问答
多模态理解

使用案例

空间理解
深度值查询
从深度图中读取指定坐标点的深度值
精确返回深度数值
空间关系推理
分析场景中物体的空间位置关系
生成准确的空间描述