CogACT - Base开源视觉语言动作模型 - 免费助力机器人完成操作任务

首页

Cogact Base

由 CogACT 开发

CogACT是一种新型视觉语言动作(VLA)架构，结合视觉语言模型与专用动作模块，用于机器人操作任务。

多模态融合

Transformers

英语开源协议:MIT #视觉语言动作模型 #机器人操作控制 #多模态预训练

下载量 6,589

发布时间 : 11/29/2024

模型简介

CogACT是一种源自视觉语言模型(VLM)的高级视觉语言动作(VLA)架构，通过组件化设计实现语言指令和视觉输入到机器人动作的转换。

模型特点

组件化架构

采用分离的视觉、语言和动作模块设计，而非简单量化改造VLM

多模态融合

整合视觉、语言和动作模态，实现复杂机器人操作任务

零样本迁移能力

可零样本应用于Open-X预训练混合数据集中的机器人配置

快速适应新任务

通过少量演示样本即可对新任务和机器人配置进行微调

模型能力

视觉语言理解

机器人动作预测

多模态融合

零样本迁移学习

使用案例

机器人操作

物体抓取与放置

根据语言指令和视觉输入预测抓取和放置物体的动作序列

可生成16步7自由度的标准化机器人动作

任务导向操作

执行复杂任务如"将海绵移到苹果附近"等指令

通过条件化扩散模型生成精确动作序列

🚀 CogACT-Base

CogACT是一种源自视觉语言模型（VLM）的新型高级视觉语言行动（VLA）架构。与以往通过简单的动作量化直接将VLM用于动作预测的工作不同，我们提出了一种组件化的VLA架构，该架构有一个基于VLM输出的专门动作模块。CogACT-Base采用DiT-Base模型作为动作模块。

我们所有的代码、预训练模型权重均遵循MIT许可证。

更多详情请参考我们的项目页面和论文。

🚀 快速开始

CogACT接收语言指令和单视角RGB图像作为输入，并预测接下来的16个归一化机器人动作（由形式为 x, y, z, roll, pitch, yaw, gripper 的7自由度末端执行器增量组成）。这些动作应通过我们的 Adaptive Action Ensemble（可选）进行反归一化和集成。反归一化和集成取决于数据集统计信息。

CogACT模型可以零样本地用于控制在Open-X预训练混合数据中出现过的机器人设置。它们也可以通过极少量的演示数据针对新任务和机器人设置进行微调。更多信息请参阅我们的代码库。

✨ 主要特性

提出组件化的VLA架构，有专门的动作模块。
可零样本控制机器人，也可针对新任务和设置微调。

📦 安装指南

文档未提供具体安装步骤，可参考代码库中的说明进行安装。

💻 使用示例

基础用法

# Please clone and install dependencies in our repo
# Install minimal dependencies (`torch`, `transformers`, `timm`, `tokenizers`, ...)

from PIL import Image
from vla import load_vla
import torch

model = load_vla(
      'CogACT/CogACT-Base',
      load_for_training=False,
      action_model_type='DiT-B',
      future_action_window_size=15,
    )                                 
# about 30G Memory in fp32; 

# (Optional) use "model.vlm = model.vlm.to(torch.bfloat16)" to load vlm in bf16

model.to('cuda:0').eval()

image: Image.Image = <input_your_image>
prompt = "move sponge near apple"           # input your prompt

# Predict Action (7-DoF; un-normalize for RT-1 google robot data, i.e. fractal20220817_data)
actions, _ = model.predict_action(
          image,
          prompt,
          unnorm_key='fractal20220817_data', # input your unnorm_key of dataset
          cfg_scale = 1.5,                   # cfg from 1.5 to 7 also performs well
          use_ddim = True,                   # use DDIM sampling
          num_ddim_steps = 10,               # number of steps for DDIM sampling
        )

# results in 7-DoF actions of 16 steps with shape [16, 7]

📚 详细文档

模型概述

属性	详情
开发者	由来自微软亚洲研究院的研究人员组成的CogACT团队。
模型类型	视觉 - 语言 - 动作（语言、图像 => 机器人动作）
语言（NLP）	英语
许可证	MIT
模型组件	视觉骨干网络：DINOv2 ViT-L/14和SigLIP ViT-So400M/14；语言模型：Llama-2；动作模型：DiT-Base
预训练数据集	Open X-Embodiment的一个子集
代码库	https://github.com/microsoft/CogACT
论文	CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation
项目页面	https://cogact.github.io/

📄 许可证

本项目遵循MIT许可证。

📖 引用

如果您在研究中使用了CogACT，请使用以下BibTeX引用：

@article{li2024cogact,
  title={CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation},
  author={Li, Qixiu and Liang, Yaobo and Wang, Zeyu and Luo, Lin and Chen, Xi and Liao, Mozheng and Wei, Fangyun and Deng, Yu and Xu, Sicheng and Zhang, Yizhong and others},
  journal={arXiv preprint arXiv:2411.19650},
  year={2024}
}