F

Flower Calvin D

由 mbreuss 开发
FlowerVLA是一个针对CALVIN D数据集预训练的视觉-语言-动作流模型,采用高效的流匹配架构,仅约10亿参数即可实现通用机器人操作策略。
下载量 16
发布时间 : 3/16/2025
模型介绍
内容详情
替代品

模型简介

FlowerVLA是一种创新的视觉-语言-动作流策略模型,专为机器人操作任务设计,能够根据视觉输入和语言指令生成相应的动作输出。

模型特点

高效架构
采用基于Transformer的新型流匹配架构,仅约10亿参数即可实现高效通用的VLA策略
多模态编码
采用Florence-2半数模块实现多模态视觉语言编码,有效整合视觉和语言信息
高性能
在CALVIN D挑战赛中排名第一,表现出色

模型能力

视觉-语言-动作映射
机器人操作控制
多模态信息处理

使用案例

机器人技术
物品抓取
根据语言指令识别并抓取特定物品
在CALVIN D数据集上达到高成功率
任务序列执行
执行复杂的多步骤操作任务
能够完成长序列任务,平均长度4.36