openvla-7b-finetuned-libero-10开源模型 - 助力机器人领域实现视觉语言动作应用

首页

Openvla 7b Finetuned Libero 10

由 openvla 开发

该模型是通过在LIBERO-10数据集上采用LoRA方法微调OpenVLA 7B模型得到的视觉语言动作模型，适用于机器人技术领域。

图像生成文本

Transformers

英语开源协议:MIT #机器人视觉控制 #多模态指令理解 #LoRA微调优化

下载量 1,779

发布时间 : 9/3/2024

模型简介

一个针对机器人技术优化的多模态模型，能够处理图像文本到文本的任务，特别适用于视觉语言动作场景。

模型特点

LIBERO-10数据集微调

专门针对LIBERO仿真基准的LIBERO-Long版本进行优化

LoRA高效微调

采用LoRA（秩=32）方法进行参数高效微调，保持模型性能同时减少计算资源需求

多模态能力

结合视觉和语言理解能力，适用于机器人技术中的复杂任务

大规模预训练基础

基于强大的OpenVLA 7B模型构建，继承了其丰富的视觉语言理解能力

模型能力

图像理解

文本生成

机器人动作规划

多模态任务处理

使用案例

机器人技术

仿真环境中的任务规划

在LIBERO仿真环境中执行复杂的多步骤任务

经过优化的任务完成率和执行效率

视觉语言导航

根据视觉输入和语言指令进行导航决策

🚀 OpenVLA 7B在LIBERO - 10（LIBERO - Long）上的微调模型

本模型是通过LoRA（r = 32）在来自LIBERO仿真基准的LIBERO - 10（LIBERO - Long）数据集上对OpenVLA 7B模型进行微调得到的。为了提高最终性能，我们对训练数据集做了一些修改（详情请参阅OpenVLA论文）。

🚀 快速开始

本模型是基于特定数据集对OpenVLA 7B模型微调而来，可用于图像文本到文本的多模态任务，在机器人领域有一定应用价值。

✨ 主要特性

基于OpenVLA 7B模型进行微调，结合了LoRA技术。
适用于LIBERO - 10（LIBERO - Long）数据集，在相关任务上有较好表现。

📦 安装指南

文档未提供安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

超参数详情

以下是我们在所有LIBERO实验中使用的超参数：

硬件：8块显存为80GB的A100 GPU
使用LoRA进行微调：use_lora == True，lora_rank == 32，lora_dropout == 0.0
学习率：5e - 4
批量大小：128（8块GPU，每块GPU 16个样本）
训练梯度步数：80K
训练和测试时不进行量化
无梯度累积（即grad_accumulation_steps == 1）
shuffle_buffer_size == 100_000
图像增强：随机裁剪、颜色抖动（详情请参阅训练代码）

使用说明

有关如何在LIBERO模拟器中运行和评估此模型的说明，请参阅OpenVLA GitHub README。

🔧 技术细节

本模型通过在LIBERO - 10（LIBERO - Long）数据集上对OpenVLA 7B模型进行微调得到。使用LoRA技术（r = 32），并对训练数据集进行了修改以提升性能。在训练过程中，使用了特定的超参数组合，如特定的学习率、批量大小等，且在训练和测试时不进行量化，无梯度累积。

📄 许可证

本模型使用的许可证为MIT许可证。

📚 引用

BibTeX:

@article{kim24openvla,
    title={OpenVLA: An Open-Source Vision-Language-Action Model},
    author={{Moo Jin} Kim and Karl Pertsch and Siddharth Karamcheti and Ted Xiao and Ashwin Balakrishna and Suraj Nair and Rafael Rafailov and Ethan Foster and Grace Lam and Pannag Sanketi and Quan Vuong and Thomas Kollar and Benjamin Burchfiel and Russ Tedrake and Dorsa Sadigh and Sergey Levine and Percy Liang and Chelsea Finn},
    journal = {arXiv preprint arXiv:2406.09246},
    year={2024}
}