S

Spatialvla 4b 224 Sft Fractal

由 IPEC-COMMUNITY 开发
SpatialVLA是一个视觉-语言-动作模型,通过在fractal数据集上微调得到,主要用于机器人控制任务。
下载量 375
发布时间 : 3/16/2025
模型介绍
内容详情
替代品

模型简介

该模型结合视觉和语言输入,输出机器人动作指令,适用于通用机器人策略开发。

模型特点

多模态理解
能够同时处理视觉和语言输入,理解复杂场景
机器人动作生成
根据视觉和语言输入生成精确的机器人动作指令
大规模预训练
在110万条真实机器人演示数据上预训练,具备广泛的任务适应能力

模型能力

视觉场景理解
自然语言指令解析
机器人动作规划
多模态特征融合

使用案例

机器人控制
物体抓取
根据视觉输入和语言指令规划抓取动作
在SimplerEnv基准测试中表现优异
空间导航
理解空间关系并生成导航路径
在空间理解评估中取得高分