flower_libero_10开源模型 - 助力机器人操作任务，小参数也有大作为！

首页

Flower Libero 10

由 mbreuss 开发

FlowerVLA是一个针对机器人操作任务预训练的视觉-语言-动作流策略模型，训练数据来自LIBERO 10数据集，仅包含10亿参数。

多模态融合

Safetensors

英语开源协议:MIT #机器人操作控制 #视觉语言动作流 #LIBERO微调

下载量 14

发布时间 : 3/17/2025

模型简介

FlowerVLA采用创新架构，使用Florence-2模型半数参数实现多模态视觉语言编码，采用基于Transformer的新型流匹配架构，以约10亿参数提供高效通用的VLA策略。

模型特点

高效多模态编码

使用Florence-2模型半数参数实现多模态视觉语言编码

流匹配架构

采用基于Transformer的新型流匹配架构

高效参数规模

仅包含10亿参数，提供高效通用的VLA策略

高性能

在LIBERO 10挑战赛中取得高成功率

模型能力

视觉语言动作模型

机器人操作任务

多模态编码

流匹配

使用案例

机器人操作

将物品放入篮子

将字母汤和番茄酱放入篮子

成功率 0.9791666666666666

打开炉灶并放上摩卡壶

厨房场景3_打开炉灶并放上摩卡壶

成功率 0.9791666666666666

将黑碗放入橱柜底层抽屉并关闭

厨房场景4_将黑碗放入橱柜底层抽屉并关闭

成功率 1.0

🚀 FlowerVLA - 在LIBERO 10上微调的视觉-语言-动作流模型

FlowerVLA是一个在LIBERO 10数据集上训练的用于机器人操作的预训练模型。Flower是一种高效的用于机器人学习的视觉-语言-动作流策略，仅包含10亿个参数，能为机器人操作任务提供有效的解决方案。

🚀 快速开始

您可以在Github上查看我们完整的模型实现 todo，并按照README中的说明在其中一个环境中测试该模型。

obs = {
    "rgb_obs": {
        "rgb_static": static_image,
        "rgb_gripper": gripper_image
    }
}
10 = {"lang_text": "pick up the blue cube"}
action = model.step(obs, 10)

✨ 主要特性

FlowerVLA是一种新颖的架构，具有以下特点：

使用Florence - 2的一半进行多模态视觉语言编码。
采用了一种基于Transformer的新型流匹配架构。
仅用约10亿个参数就提供了一种高效、通用的视觉-语言-动作（VLA）策略。

📚 详细文档

模型性能

此检查点包含用于LIBERO 10挑战的权重，并取得了以下结果：

eval_lh/avg_seq_len成功率：0.9440705180168152
eval_lh/sr_LIVING_ROOM_SCENE2_put_both_the_alphabet_soup_and_the_tomato_sauce_in_the_basket成功率：0.9791666666666666
eval_lh/sr_LIVING_ROOM_SCENE2_put_both_the_cream_cheese_box_and_the_butter_in_the_basket成功率：1.0
eval_lh/sr_KITCHEN_SCENE3_turn_on_the_stove_and_put_the_moka_pot_on_it成功率：0.9791666666666666
eval_lh/sr_KITCHEN_SCENE4_put_the_black_bowl_in_the_bottom_drawer_of_the_cabinet_and_close_it成功率：1.0
eval_lh/sr_LIVING_ROOM_SCENE5_put_the_white_mug_on_the_left_plate_and_put_the_yellow_and_white_mug_on_the_right_plate成功率：0.9407051282051282
eval_lh/sr_STUDY_SCENE1_pick_up_the_book_and_place_it_in_the_back_compartment_of_the_caddy成功率：1.0
eval_lh/sr_LIVING_ROOM_SCENE6_put_the_white_mug_on_the_plate_and_put_the_chocolate_pudding_to_the_right_of_the_plate成功率：0.8990384615384616
eval_lh/sr_LIVING_ROOM_SCENE1_put_both_the_alphabet_soup_and_the_cream_cheese_box_in_the_basket成功率：1.0
eval_lh/sr_KITCHEN_SCENE8_put_both_moka_pots_on_the_stove成功率：0.7403846153846154
eval_lh/sr_KITCHEN_SCENE6_put_the_yellow_and_white_mug_in_the_microwave_and_close_it成功率：0.9022435897435898

输入/输出规格

输入

RGB静态相机：(B, T, 3, H, W) 张量
RGB夹爪相机：(B, T, 3, H, W) 张量
语言指令：文本字符串

输出

动作空间：(B, T, 7) 张量，表示末端执行器（EEF）的增量动作

🔧 技术细节

训练配置

优化器：AdamW
学习率：2e - 5
权重衰减：0.05

引用

@inproceedings{
    reuss2025flower,
    # Add citation when available
}

📄 许可证

该模型根据MIT许可证发布。

📦 模型信息

属性	详情
基础模型	microsoft/Florence - 2 - large
模型类型	视觉-语言-动作流模型
训练数据	LIBERO 10数据集
任务类型	机器人操作
标签	VLA、LIBERO、Robotics、Flow