C

Cogact Base

由 CogACT 开发
CogACT是一种新型视觉语言动作(VLA)架构,结合视觉语言模型与专用动作模块,用于机器人操作任务。
下载量 6,589
发布时间 : 11/29/2024
模型介绍
内容详情
替代品

模型简介

CogACT是一种源自视觉语言模型(VLM)的高级视觉语言动作(VLA)架构,通过组件化设计实现语言指令和视觉输入到机器人动作的转换。

模型特点

组件化架构
采用分离的视觉、语言和动作模块设计,而非简单量化改造VLM
多模态融合
整合视觉、语言和动作模态,实现复杂机器人操作任务
零样本迁移能力
可零样本应用于Open-X预训练混合数据集中的机器人配置
快速适应新任务
通过少量演示样本即可对新任务和机器人配置进行微调

模型能力

视觉语言理解
机器人动作预测
多模态融合
零样本迁移学习

使用案例

机器人操作
物体抓取与放置
根据语言指令和视觉输入预测抓取和放置物体的动作序列
可生成16步7自由度的标准化机器人动作
任务导向操作
执行复杂任务如"将海绵移到苹果附近"等指令
通过条件化扩散模型生成精确动作序列