开源FlowerVLA机器人操作模型，为机器人学习量身定制，高效助力操作训练！

首页

Flower Calvin Abcd

由 mbreuss 开发

FlowerVLA是一个针对CALVIN ABCD数据集预训练的机器人操作模型，采用创新的视觉-语言-动作流策略，仅包含10亿参数，专为机器人学习设计。

多模态融合

Safetensors

英语开源协议:MIT #机器人操作控制 #视觉-语言-动作流 #10亿参数轻量级

下载量 24

发布时间 : 3/16/2025

模型简介

FlowerVLA是一种高效的视觉-语言-动作流策略，采用半量Florence-2进行多模态视觉-语言编码，结合基于Transformer的新型流匹配架构，实现高效、通用的视觉-语言-动作策略。

模型特点

高效的多模态编码

使用半量Florence-2进行多模态视觉-语言编码，实现高效的视觉-语言-动作策略。

创新的流匹配架构

采用基于Transformer的新型流匹配架构，仅约10亿参数即可实现高效、通用的视觉-语言-动作策略。

高性能

在CALVIN ABCD挑战赛中排名第一，平均长度达到4.72。

模型能力

视觉-语言-动作编码

机器人操作

多模态任务执行

使用案例

机器人技术

拾取物体

根据语言指令拾取特定物体，如蓝色立方体。

在测试中达到99.1%的成功率。

🚀 FlowerVLA - 用于CALVIN ABCD的视觉-语言-动作流模型

FlowerVLA是一个预训练模型，专为基于CALVIN ABCD数据集的机器人操作任务而设计。Flower是一种高效的视觉 - 语言 - 动作流策略，仅含10亿参数，适用于机器人学习。

🚀 快速开始

你可以在GitHub上查看我们完整的模型实现 todo，并按照README中的说明在其中一个环境中测试该模型。

obs = {
    "rgb_obs": {
        "rgb_static": static_image,
        "rgb_gripper": gripper_image
    }
}
goal = {"lang_text": "pick up the blue cube"}
action = model.step(obs, goal)

✨ 主要特性

创新架构：FlowerVLA采用了新颖的架构，使用了Florence - 2一半的结构进行多模态视觉 - 语言编码。
高效策略：采用了基于Transformer的流匹配架构，仅用约10亿参数就提供了高效、通用的VLA策略。

📚 详细文档

模型描述

FlowerVLA是一种新颖的架构，具有以下特点：

使用Florence - 2的一半进行多模态视觉 - 语言编码。
采用了基于Transformer的新型流匹配架构。
仅用约10亿参数就提供了高效、通用的VLA策略。

模型性能

此检查点包含用于CALVIN ABCD挑战的权重，目前排名第一，结果如下：

训练→测试	方法	1	2	3	4	5	平均长度
{dataset_name}	FlowerVLA	99.1%	97.8%	95.2%	92.4%	87.8%	4.72

输入/输出规格

输入

RGB静态相机：(B, T, 3, H, W) 张量
RGB夹爪相机：(B, T, 3, H, W) 张量
语言指令：文本字符串

输出

动作空间：(B, T, 7) 张量，表示EEF的增量动作

💻 使用示例

基础用法

obs = {
    "rgb_obs": {
        "rgb_static": static_image,
        "rgb_gripper": gripper_image
    }
}
goal = {"lang_text": "pick up the blue cube"}
action = model.step(obs, goal)