C

Cogact Small

由 CogACT 开发
CogACT是一种基于视觉语言模型(VLM)衍生的新型高级视觉语言动作(VLA)架构,专为机器人操作设计。
下载量 405
发布时间 : 11/30/2024
模型介绍
内容详情
替代品

模型简介

CogACT是一种组件化的视觉语言动作模型,通过专用动作模块将视觉语言模型的输出转化为机器人动作预测。

模型特点

组件化架构
采用分离的视觉、语言和动作模块,而非直接改造VLM进行动作预测
多模态融合
整合视觉和语言输入来预测机器人动作
零样本迁移能力
可零样本应用于Open-X预训练混合数据集中的机器人配置
快速适应新任务
通过少量演示样本即可对新任务和机器人配置进行微调

模型能力

视觉语言理解
机器人动作预测
多模态信息处理
零样本任务执行

使用案例

机器人操作
物体抓取与放置
根据语言指令和视觉输入预测抓取和放置物体的动作序列
可生成16步7自由度的标准化机器人动作
任务导向操作
执行如'将海绵移到苹果附近'等具体任务指令
通过扩散模型预测精确的动作轨迹