S

Spatialvla 4b 224 Pt

由 IPEC-COMMUNITY 开发
SpatialVLA是基于110万真实机器人操作片段训练的空间增强视觉语言动作模型,专注于机器人控制任务
下载量 13.06k
发布时间 : 1/26/2025
模型介绍
内容详情
替代品

模型简介

一个基于PaLiGemma2架构的视觉-语言-动作模型,能够根据视觉输入和语言指令生成机器人控制动作

模型特点

空间增强表征
专门优化了空间理解能力,能更好地处理机器人操作任务中的空间关系
大规模真实数据训练
基于110万真实机器人操作片段训练,具有强大的实际操作能力
简洁高效实现
完全基于HuggingFace Transformers实现,部署简便

模型能力

视觉指令理解
机器人动作生成
空间关系推理
多模态任务处理

使用案例

机器人控制
物体抓取
根据视觉输入和语言指令生成抓取物体的动作序列
在WidowX机器人上实现零样本控制
新构型适应
通过少量微调适应新的机器人构型
成功应用于Franka机器人
空间理解
空间关系推理
理解物体之间的空间关系并生成相应动作
在LIBERO基准测试中表现优异