CogACT-Large开源模型 - 为机器人操作定制，实现高级视觉语言动作应用

首页

Cogact Large

由 CogACT 开发

CogACT是一种基于视觉语言模型(VLM)衍生的新型高级视觉语言动作(VLA)架构，专为机器人操作设计。

多模态融合

Transformers

英语开源协议:MIT #视觉语言动作模型 #机器人操作控制 #多模态扩散模型

下载量 122

发布时间 : 11/30/2024

模型简介

CogACT是一种组件化的视觉语言动作模型，通过专用动作模块以视觉语言模型输出为条件，预测机器人动作。支持零样本应用于预训练数据集中出现的机器人配置，也可通过少量样本微调适应新任务。

模型特点

组件化架构

采用分离的视觉、语言和动作模块，而非简单改造VLM进行动作预测

自适应动作集成

支持动作反标准化和集成，适应不同数据集统计特性

零样本迁移能力

可直接应用于Open-X预训练混合数据集中的机器人配置

少量样本微调

通过极少量演示样本即可适应新任务和机器人配置

模型能力

视觉语言理解

机器人动作预测

多模态任务处理

零样本迁移学习

使用案例

机器人操作

物体抓取与放置

根据语言指令和视觉输入预测抓取和放置物体的动作序列

可生成16步7自由度的标准化机器人动作

任务导向操作

执行如'将海绵移到苹果附近'等具体任务指令

通过扩散模型生成精确的动作序列

🚀 CogACT-Large

CogACT是一种源自视觉语言模型（VLM）的全新高级视觉语言动作（VLA）架构。与以往通过简单动作量化直接将VLM用于动作预测的工作不同，我们提出了一种组件化的VLA架构，该架构有一个基于VLM输出的专用动作模块。CogACT-Large采用了DiT-L模型作为动作模块。

我们所有的代码、预训练模型权重均遵循MIT许可证。

更多详情请参考我们的项目页面和论文。

📚 详细文档

模型概述

属性	详情
开发者	由来自微软亚洲研究院的研究人员组成的CogACT团队
模型类型	视觉 - 语言 - 动作（语言、图像 => 机器人动作）
语言（NLP）	英文
许可证	MIT
模型组件	视觉骨干网络：DINOv2 ViT-L/14和SigLIP ViT-So400M/14；语言模型：Llama-2；动作模型：DiT-Large
预训练数据集	Open X-Embodiment的一个子集
代码仓库	https://github.com/microsoft/CogACT
论文	CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation
项目页面	https://cogact.github.io/

用途

CogACT以语言指令和单视角RGB图像作为输入，预测接下来的16个归一化机器人动作（由形式为 x, y, z, roll, pitch, yaw, gripper 的7自由度末端执行器增量组成）。这些动作应通过我们的 Adaptive Action Ensemble（可选）进行反归一化和集成。反归一化和集成依赖于数据集统计信息。

CogACT模型可以零样本地用于控制在Open-X预训练混合数据中出现过的机器人设置。它们也可以使用极少的演示数据针对新任务和机器人设置进行微调。更多信息请参阅我们的代码仓库。

💻 使用示例

基础用法

# 请克隆我们的仓库并安装依赖项
# 安装最小依赖项 (`torch`, `transformers`, `timm`, `tokenizers`, ...)

from PIL import Image
from vla import load_vla
import torch

model = load_vla(
      'CogACT/CogACT-Large',
      load_for_training=False,
      action_model_type='DiT-L',
      future_action_window_size=15,
    )                                 
# 在fp32模式下约占用30G内存

# （可选）使用 "model.vlm = model.vlm.to(torch.bfloat16)" 以bf16模式加载vlm

model.to('cuda:0').eval()

image: Image.Image = <input_your_image>
prompt = "move sponge near apple"           # 输入你的提示

# 预测动作（7自由度；针对RT-1谷歌机器人数据进行反归一化，即fractal20220817_data）
actions, _ = model.predict_action(
          image,
          prompt,
          unnorm_key='fractal20220817_data', # 输入你的数据集反归一化键
          cfg_scale = 1.5,                   # cfg在1.5到7之间效果也很好
          use_ddim = True,                   # 使用DDIM采样
          num_ddim_steps = 10,               # DDIM采样的步数
        )

# 结果为16步的7自由度动作，形状为 [16, 7]

📄 许可证

本项目遵循MIT许可证。

📖 引用

@article{li2024cogact,
  title={CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation},
  author={Li, Qixiu and Liang, Yaobo and Wang, Zeyu and Luo, Lin and Chen, Xi and Liao, Mozheng and Wei, Fangyun and Deng, Yu and Xu, Sicheng and Zhang, Yizhong and others},
  journal={arXiv preprint arXiv:2411.19650},
  year={2024}
}