O

Openvla 7b

由 openvla 开发
OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型,能够根据语言指令和摄像头图像生成机器人动作。
下载量 1.7M
发布时间 : 6/10/2024
模型介绍
内容详情
替代品

模型简介

OpenVLA 7B是一个多模态模型,接收语言指令和机器人工作空间的摄像头图像作为输入,预测7自由度末端执行器位移量。支持多种机器人控制,并能通过微调快速适配新机器人领域。

模型特点

多机器人支持
开箱即用地控制预训练混合数据中包含的多种机器人
参数高效微调
可通过少量演示数据高效微调适配新任务和机器人配置
开源训练代码
完整的训练代码库以MIT许可证发布,支持自定义训练
多模态输入
同时处理语言指令和视觉输入,生成精确的机器人动作

模型能力

机器人动作预测
视觉语言理解
多模态任务处理
机器人控制

使用案例

机器人控制
Widow-X机器人控制
在BridgeV2环境中控制Widow-X机器人执行指令
零样本执行预训练混合数据中包含的任务
新机器人适配
通过少量演示数据微调适配新机器人配置
快速适应新任务和机器人环境