CogACT-Small开源模型 - 专为机器人操作设计的高级视觉语言动作架构

首页

Cogact Small

由 CogACT 开发

CogACT是一种基于视觉语言模型(VLM)衍生的新型高级视觉语言动作(VLA)架构，专为机器人操作设计。

多模态融合

Transformers

英语开源协议:MIT #视觉语言动作模型 #机器人操作控制 #多模态扩散模型

下载量 405

发布时间 : 11/30/2024

模型简介

CogACT是一种组件化的视觉语言动作模型，通过专用动作模块将视觉语言模型的输出转化为机器人动作预测。

模型特点

组件化架构

采用分离的视觉、语言和动作模块，而非直接改造VLM进行动作预测

多模态融合

整合视觉和语言输入来预测机器人动作

零样本迁移能力

可零样本应用于Open-X预训练混合数据集中的机器人配置

快速适应新任务

通过少量演示样本即可对新任务和机器人配置进行微调

模型能力

视觉语言理解

机器人动作预测

多模态信息处理

零样本任务执行

使用案例

机器人操作

物体抓取与放置

根据语言指令和视觉输入预测抓取和放置物体的动作序列

可生成16步7自由度的标准化机器人动作

任务导向操作

执行如'将海绵移到苹果附近'等具体任务指令

通过扩散模型预测精确的动作轨迹

🚀 CogACT-Small

CogACT是一种源自视觉语言模型（VLM）的全新高级视觉语言行动（VLA）架构。与以往通过简单的动作量化直接将VLM用于动作预测的工作不同，我们提出了一种组件化的VLA架构，该架构拥有一个基于VLM输出的专门动作模块。CogACT-Small采用了DiT-S模型作为动作模块。

我们所有的代码、预训练模型权重均遵循MIT许可证。

更多详细信息请参考我们的项目页面和论文。

📚 详细文档

模型概述

开发者：CogACT团队，成员来自微软亚洲研究院。
模型类型：视觉 - 语言 - 动作（语言、图像 => 机器人动作）
语言（NLP）：英语
许可证：MIT
模型组件：
- 视觉骨干网络：DINOv2 ViT - L/14和SigLIP ViT - So400M/14
- 语言模型：Llama - 2
- 动作模型：DiT - Small
预训练数据集：Open X - Embodiment的一个子集
代码仓库：https://github.com/microsoft/CogACT
论文：CogACT: A Foundational Vision - Language - Action Model for Synergizing Cognition and Action in Robotic Manipulation
项目页面：https://cogact.github.io/

模型用途

CogACT以语言指令和单视角RGB图像作为输入，预测接下来的16个归一化机器人动作（由7自由度末端执行器增量组成，形式为x, y, z, roll, pitch, yaw, gripper）。这些动作应通过我们的Adaptive Action Ensemble（可选）进行反归一化和集成。反归一化和集成依赖于数据集统计信息。

CogACT模型可以进行零样本学习，以控制在Open - X预训练混合数据中出现过的机器人设置。它们也可以通过极少量的演示样本针对新任务和机器人设置进行微调。更多信息请参阅我们的代码仓库。

推理示例

以下是一个简单的推理示例：

# 请克隆并安装我们仓库中的依赖项
# 安装最小依赖项 (`torch`, `transformers`, `timm`, `tokenizers`, ...)

from PIL import Image
from vla import load_vla
import torch

model = load_vla(
      'CogACT/CogACT-Small',
      load_for_training=False,
      action_model_type='DiT-S',
      future_action_window_size=15,
    )                                 
# 在fp32模式下约占用30G内存; 

# (可选) 使用 "model.vlm = model.vlm.to(torch.bfloat16)" 以bf16模式加载vlm

model.to('cuda:0').eval()

image: Image.Image = <input_your_image>
prompt = "move sponge near apple"           # 输入你的提示

# 预测动作 (7自由度; 对RT-1谷歌机器人数据进行反归一化，即fractal20220817_data)
actions, _ = model.predict_action(
          image,
          prompt,
          unnorm_key='fractal20220817_data', # 输入你的数据集反归一化键
          cfg_scale = 1.5,                   # cfg在1.5到7之间效果也很好
          use_ddim = True,                   # 使用DDIM采样
          num_ddim_steps = 10,               # DDIM采样的步数
        )

# 结果为16步的7自由度动作，形状为 [16, 7]

引用信息

@article{li2024cogact,
  title={CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation},
  author={Li, Qixiu and Liang, Yaobo and Wang, Zeyu and Luo, Lin and Chen, Xi and Liao, Mozheng and Wei, Fangyun and Deng, Yu and Xu, Sicheng and Zhang, Yizhong and others},
  journal={arXiv preprint arXiv:2411.19650},
  year={2024}
}