octo-base开源机器人控制模型 - 预测未来动作，处理多模态输入

首页

Octo Base

由 rail-berkeley 开发

Octo是一个基于扩散策略训练的机器人控制基础模型，能够预测未来动作并处理多模态输入。

多模态融合

Transformers

开源协议:MIT #多模态机器人控制 #扩散策略预测 #7维动作规划

下载量 215

发布时间 : 12/13/2023

模型简介

Octo基础模型是一个用于机器人控制的Transformer模型，通过处理视觉和语言输入来预测未来动作。它支持多摄像头输入和语言指令，适用于各种机器人操作任务。

模型特点

多模态输入处理

能够同时处理来自主摄像头和腕部摄像头的视觉输入，以及语言指令输入

扩散策略训练

采用先进的扩散策略进行模型训练，提高动作预测的准确性

大规模数据集训练

基于Open X-Embodiment混合数据集训练，涵盖26个不同机器人数据集

灵活输入支持

推理时可输入任意子集的观测和任务键值，支持最多2个时间步长的历史窗口

模型能力

视觉数据处理

语言指令理解

多步动作预测

多摄像头输入处理

机器人控制

使用案例

工业机器人

装配线操作

控制工业机械臂完成产品装配任务

物料搬运

指导机器人完成物品抓取和放置操作

服务机器人

家庭助理

执行日常家务任务如整理物品

餐饮服务

完成食品准备和送餐任务

🚀 Octo Base

Octo Base是一个用于机器人领域的模型，它通过特定的训练方式和架构，能够根据观察和任务信息预测未来的动作，为机器人的决策和行动提供支持。

🚀 快速开始

有关如何使用此模型的说明，请参阅这里。

🔧 技术细节

模型训练与架构

Octo Base使用大小为2的窗口进行训练，通过扩散策略预测未来4步的7维动作。该模型是一个具有9300万个参数的Transformer（相当于ViT - B）。图像通过轻量级卷积编码器进行预处理后进行分词，然后分组为16x16的图像块。语言则通过应用T5分词器，然后使用T5 - Base语言编码器进行分词。

观察与任务规范

观察数据格式

{
    image_primary: ('batch', 'history_window', 256, 256, 3),
    image_wrist: ('batch', 'history_window', 128, 128, 3),
}

任务数据格式

{
    image_primary: ('batch', 256, 256, 3),
    image_wrist: ('batch', 128, 128, 3),
    language_instruction: {
        attention_mask: ('batch', 16),
        input_ids: ('batch', 16),
    },
}

在推理时，你可以传入这些观察和任务键的任意子集，历史窗口最长可达2个时间步。

训练数据集

该模型在Open X - Embodiment数据集中的多个数据集的混合数据上进行训练，各数据集在批次中的占比如下：

数据集	批次占比
Fractal (Brohan et al, 2022)	17.0%
Kuka (Kalashnikov et al, 2018)	17.0%
Bridge (Walke et al, 2023)	17.0%
BC - Z (Jang et al, 2022)	9.1%
Stanford Hydra Dataset (Belkhale et al, 2023)	6.0%
Language Table~ (Lynch et al, 2023)	5.9%
Taco Play (Rosete - Beas et al, 2022, Mees et al., 2023)	3.6%
Furniture Bench Dataset (Heo et al, 2023)	3.3%
UTAustin Mutex (Shah et al, 2023)	3.0%
Austin Sailor Dataset (Nasiriany et al, 2022)	2.9%
Roboturk (Mandlekar et al, 2018)	2.8%
Toto (Zhou et al, 2023)	2.4%
Austin Sirius Dataset (Liu et al, 2023)	2.3%
Berkeley Autolab UR5 (Chen et al)	1.5%
IAMLab CMU Pickup Insert (Saxena et al, 2023)	1.2%
Viola (Zhu et al, 2023)	1.2%
Berkeley Fanuc Manipulation (Zhu et al, 2023)	1.0%
NYU Franka Play Dataset (Cui et al, 2022)	0.9%
UCSD Kitchen Dataset (Ge Yan and Wang, 2023)	<0.1%
Jaco Play (Dass et al, 2023)	0.6%
Berkeley Cable Routing (Luo et al, 2023)	0.3%
Austin Buds Dataset (Zhu et al, 2022)	0.3%
CMU Stretch (Mendonca et al, 2023)	0.2%
NYU Door Opening (Pari et al, 2021)	0.1%
DLR EDAN Shared Control (Quere et al, 2020)	0.1%