OpenVLA 7B视觉语言动作模型 - 基于LIBERO-Spatial微调，开源实用！

Openvla 7b Finetuned Libero Spatial

由 openvla 开发

在LIBERO-Spatial数据集上使用LoRA微调的OpenVLA 7B视觉语言动作模型

下载量 4,009

发布时间 : 9/3/2024

模型简介

这是一个多模态视觉语言动作模型，专为机器人技术设计，能够处理图像和文本输入并生成相应的动作指令。

LIBERO-Spatial数据集微调

专门针对机器人空间任务优化的模型性能

LoRA高效微调

使用秩为32的LoRA进行参数高效微调，保持原始模型能力的同时适应新任务

多模态处理能力

能够同时处理视觉和语言输入，输出动作指令

视觉语言理解

机器人动作生成

多模态推理

空间任务处理

机器人控制

空间导航任务

根据视觉输入和文本指令生成机器人导航动作

在LIBERO-Spatial基准测试中表现良好

物体操作任务

结合视觉和语言输入完成物体抓取和放置任务

属性	详情
硬件	8个显存为80GB的A100 GPU
LoRA微调参数	`use_lora == True`, `lora_rank == 32`, `lora_dropout == 0.0`
学习率	5e - 4
批量大小	128（8个GPU，每个GPU 16个样本）
训练梯度步数	50K
训练和测试时量化情况	无量化
梯度累积情况	无梯度累积（即`grad_accumulation_steps == 1`）
打乱缓冲区大小	100_000
图像增强	随机裁剪、颜色抖动（详情见训练代码）