C

Cogact Large

由 CogACT 开发
CogACT是一种基于视觉语言模型(VLM)衍生的新型高级视觉语言动作(VLA)架构,专为机器人操作设计。
下载量 122
发布时间 : 11/30/2024
模型介绍
内容详情
替代品

模型简介

CogACT是一种组件化的视觉语言动作模型,通过专用动作模块以视觉语言模型输出为条件,预测机器人动作。支持零样本应用于预训练数据集中出现的机器人配置,也可通过少量样本微调适应新任务。

模型特点

组件化架构
采用分离的视觉、语言和动作模块,而非简单改造VLM进行动作预测
自适应动作集成
支持动作反标准化和集成,适应不同数据集统计特性
零样本迁移能力
可直接应用于Open-X预训练混合数据集中的机器人配置
少量样本微调
通过极少量演示样本即可适应新任务和机器人配置

模型能力

视觉语言理解
机器人动作预测
多模态任务处理
零样本迁移学习

使用案例

机器人操作
物体抓取与放置
根据语言指令和视觉输入预测抓取和放置物体的动作序列
可生成16步7自由度的标准化机器人动作
任务导向操作
执行如'将海绵移到苹果附近'等具体任务指令
通过扩散模型生成精确的动作序列