S

Spatialvla 4b Mix 224 Pt

由 IPEC-COMMUNITY 开发
SpatialVLA是一个视觉-语言-动作模型,通过微调基础模型在分形与桥数据集上获得,专为机器人控制任务设计。
下载量 72
发布时间 : 1/26/2025
模型介绍
内容详情
替代品

模型简介

该模型主要用于将语言指令和视觉输入转换为机器人动作,适用于通用机器人策略开发。

模型特点

视觉-语言-动作集成
能够同时处理视觉输入和语言指令,输出机器人动作序列
大规模预训练
在Open X-Embodiment和RH20T的110万条真实机器人演示数据上预训练
领域适应微调
针对特定任务在分形与桥数据集上进行优化微调
空间理解能力
特别强调对空间关系的理解和表达

模型能力

视觉-语言理解
机器人动作生成
空间关系推理
多模态任务处理

使用案例

机器人控制
物体抓取
根据视觉输入和语言指令生成抓取动作序列
在Google Robot任务中表现良好
空间导航
理解空间关系并生成导航路径
在WidowX Robot任务中取得良好效果