O

Octo Base

由 rail-berkeley 开发
Octo是一个基于扩散策略训练的机器人控制基础模型,能够预测未来动作并处理多模态输入。
下载量 215
发布时间 : 12/13/2023
模型介绍
内容详情
替代品

模型简介

Octo基础模型是一个用于机器人控制的Transformer模型,通过处理视觉和语言输入来预测未来动作。它支持多摄像头输入和语言指令,适用于各种机器人操作任务。

模型特点

多模态输入处理
能够同时处理来自主摄像头和腕部摄像头的视觉输入,以及语言指令输入
扩散策略训练
采用先进的扩散策略进行模型训练,提高动作预测的准确性
大规模数据集训练
基于Open X-Embodiment混合数据集训练,涵盖26个不同机器人数据集
灵活输入支持
推理时可输入任意子集的观测和任务键值,支持最多2个时间步长的历史窗口

模型能力

视觉数据处理
语言指令理解
多步动作预测
多摄像头输入处理
机器人控制

使用案例

工业机器人
装配线操作
控制工业机械臂完成产品装配任务
物料搬运
指导机器人完成物品抓取和放置操作
服务机器人
家庭助理
执行日常家务任务如整理物品
餐饮服务
完成食品准备和送餐任务