F

Flower Calvin Abc

由 mbreuss 开发
FlowerVLA是一个针对机器人操作任务预训练的视觉-语言-动作模型,基于CALVIN ABC数据集训练,采用高效的流匹配架构,仅约10亿参数。
下载量 20
发布时间 : 3/16/2025

模型简介

FlowerVLA是一种高效的视觉-语言-动作流策略模型,专为机器人操作任务设计,结合多模态视觉-语言编码和新型Transformer架构。

模型特点

高效的多模态编码
采用Florence-2模型的一半结构进行多模态视觉-语言编码,实现高效的视觉-语言融合。
流匹配架构
使用新型基于Transformer的流匹配架构,优化动作生成流程。
轻量化设计
仅约10亿参数即可实现高效、通用的视觉-语言-动作策略,适合实时机器人操作。

模型能力

视觉-语言-动作融合
机器人操作任务执行
多模态输入处理
动作空间预测

使用案例

机器人技术
CALVIN ABC挑战赛
在CALVIN ABC挑战赛中执行复杂机器人操作任务
目前排名第一,平均任务完成长度4.54
物体抓取
根据语言指令抓取特定物体
高成功率
AIbase
智启未来,您的人工智能解决方案智库
简体中文