OpenVLA 7B开源视觉语言动作模型 - 按指令和图像生成机器人动作

首页

Openvla 7b

由 openvla 开发

OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型，能够根据语言指令和摄像头图像生成机器人动作。

图像生成文本

Transformers

英语开源协议:MIT #机器人控制 #多模态指令 #零样本泛化

下载量 1.7M

发布时间 : 6/10/2024

模型简介

OpenVLA 7B是一个多模态模型，接收语言指令和机器人工作空间的摄像头图像作为输入，预测7自由度末端执行器位移量。支持多种机器人控制，并能通过微调快速适配新机器人领域。

模型特点

多机器人支持

开箱即用地控制预训练混合数据中包含的多种机器人

参数高效微调

可通过少量演示数据高效微调适配新任务和机器人配置

开源训练代码

完整的训练代码库以MIT许可证发布，支持自定义训练

多模态输入

同时处理语言指令和视觉输入，生成精确的机器人动作

模型能力

机器人动作预测

视觉语言理解

多模态任务处理

机器人控制

使用案例

机器人控制

Widow-X机器人控制

在BridgeV2环境中控制Widow-X机器人执行指令

零样本执行预训练混合数据中包含的任务

新机器人适配

通过少量演示数据微调适配新机器人配置

快速适应新任务和机器人环境

🚀 OpenVLA 7B

OpenVLA 7B (openvla-7b) 是一个开源的视觉-语言-动作模型，它基于 Open X-Embodiment 数据集中的 970K 个机器人操作片段进行训练。该模型以语言指令和相机图像作为输入，生成机器人动作。它支持开箱即用的多机器人控制，并且可以通过（参数高效的）微调快速适应新的机器人领域。

所有 OpenVLA 模型检查点以及我们的训练代码库均在 MIT 许可证下发布。

如需了解完整详情，请阅读我们的论文并查看我们的项目页面。

📦 安装指南

在使用 OpenVLA 7B 之前，需要安装一些必要的依赖项。可以使用以下命令安装最小依赖：

pip install -r https://raw.githubusercontent.com/openvla/openvla/main/requirements-min.txt

💻 使用示例

基础用法

以下是一个在 [BridgeV2 环境] 中使用 Widow - X 机器人进行零样本指令跟随的示例，用于加载 openvla-7b：

# Install minimal dependencies (`torch`, `transformers`, `timm`, `tokenizers`, ...)
# > pip install -r https://raw.githubusercontent.com/openvla/openvla/main/requirements-min.txt
from transformers import AutoModelForVision2Seq, AutoProcessor
from PIL import Image

import torch

# Load Processor & VLA
processor = AutoProcessor.from_pretrained("openvla/openvla-7b", trust_remote_code=True)
vla = AutoModelForVision2Seq.from_pretrained(
    "openvla/openvla-7b",
    attn_implementation="flash_attention_2",  # [Optional] Requires `flash_attn`
    torch_dtype=torch.bfloat16, 
    low_cpu_mem_usage=True, 
    trust_remote_code=True
).to("cuda:0")

# Grab image input & format prompt
image: Image.Image = get_from_camera(...)
prompt = "In: What action should the robot take to {<INSTRUCTION>}?\nOut:"

# Predict Action (7-DoF; un-normalize for BridgeV2)
inputs = processor(prompt, image).to("cuda:0", dtype=torch.bfloat16)
action = vla.predict_action(**inputs, unnorm_key="bridge_orig", do_sample=False)

# Execute...
robot.act(action, ...)

更多示例，包括在你自己的机器人演示数据集上微调 OpenVLA 模型的脚本，请查看我们的训练仓库。

📚 详细文档

模型概述

属性	详情
开发者	由来自斯坦福大学、加州大学伯克利分校、谷歌 Deepmind 和丰田研究院的研究人员组成的 OpenVLA 团队
模型类型	视觉 - 语言 - 动作（语言、图像 => 机器人动作）
语言（NLP）	英语
许可证	MIT
微调基础模型	`prism-dinosiglip-224px`，一个视觉语言模型，训练自： + 视觉骨干网络：DINOv2 ViT - L/14 和 SigLIP ViT - So400M/14 + 语言模型：Llama - 2
预训练数据集	Open X - Embodiment，具体的组件数据集可在此处找到
代码仓库	https://github.com/openvla/openvla
论文	OpenVLA: An Open - Source Vision - Language - Action Model
项目页面和视频	https://openvla.github.io/

用途

OpenVLA 模型以语言指令和机器人工作空间的相机图像作为输入，预测由 7 自由度末端执行器增量组成的（归一化的）机器人动作，形式为 (x, y, z, roll, pitch, yaw, gripper)。要在实际机器人平台上执行，动作需要根据每个机器人、每个数据集计算的统计信息进行 反归一化。更多信息请查看我们的仓库。

OpenVLA 模型可以零样本控制在 Open - X 预训练混合数据集中出现的特定具身和领域组合的机器人（例如，使用 Widow - X 机器人的 BridgeV2 环境）。在给定最少的演示数据的情况下，也可以针对新任务和机器人设置进行高效的微调；详情见此。

适用范围外情况：OpenVLA 模型不能零样本泛化到新的（未见过的）机器人具身或预训练混合数据集中未涵盖的设置；在这些情况下，建议在所需设置上收集演示数据集，并对 OpenVLA 模型进行微调。

快速开始

OpenVLA 7B 可以开箱即用地控制预训练混合数据集中涵盖领域的多个机器人。例如，上述代码展示了如何在 [BridgeV2 环境] 中使用 Widow - X 机器人进行零样本指令跟随。

📄 许可证

本项目采用 MIT 许可证。所有 OpenVLA 检查点以及训练代码库均在 MIT 许可证下发布。

📖 引用

BibTeX：

@article{kim24openvla,
    title={OpenVLA: An Open-Source Vision-Language-Action Model},
    author={{Moo Jin} Kim and Karl Pertsch and Siddharth Karamcheti and Ted Xiao and Ashwin Balakrishna and Suraj Nair and Rafael Rafailov and Ethan Foster and Grace Lam and Pannag Sanketi and Quan Vuong and Thomas Kollar and Benjamin Burchfiel and Russ Tedrake and Dorsa Sadigh and Sergey Levine and Percy Liang and Chelsea Finn},
    journal = {arXiv preprint arXiv:2406.09246},
    year={2024}
}