S

Spatialvla 4b 224 Sft Bridge

由 IPEC-COMMUNITY 开发
该模型是基于SpatialVLA模型在bridge数据集上微调得到的视觉-语言-动作模型,专为Simpler-env基准测试打造。
下载量 1,066
发布时间 : 3/16/2025
模型介绍
内容详情
替代品

模型简介

SpatialVLA是一个视觉-语言-动作模型,能够根据图像和文本输入生成机器人动作指令。

模型特点

视觉-语言-动作集成
能够同时处理视觉和语言输入,输出机器人动作指令
基于大规模机器人数据训练
使用Open X-Embodiment和RH20T数据集进行预训练
空间理解能力
专门优化了对空间关系的理解和表达
易于部署
完全基于HuggingFace Transformers,部署简便

模型能力

视觉-语言理解
机器人动作生成
空间关系推理
多模态任务处理

使用案例

机器人控制
物体抓取
根据视觉输入和文本指令生成抓取物体的动作序列
在Google Robot任务中取得良好表现
物体摆放
将指定物体摆放到目标位置
在WidowX Robot任务中展示高成功率
空间理解
空间关系推理
理解物体间的相对位置关系
在空间理解评估中表现优异