OpenVLA-OFT开源视觉-语言-动作模型 - 微调后提升LIBERO任务执行速度与成功率

首页

Openvla 7b Oft Finetuned Libero Spatial Object Goal 10

由 moojink 开发

OpenVLA-OFT是基于OpenVLA模型优化的视觉-语言-动作模型，通过微调技术在LIBERO任务套件上显著提升了执行速度和成功率。

多模态融合

Transformers

开源协议:MIT #视觉-语言-动作微调 #机器人任务优化 #连续动作生成

下载量 447

发布时间 : 4/28/2025

模型简介

该模型专注于机器人任务执行，通过视觉和语言输入生成连续动作序列，适用于空间、物体、目标和长期任务场景。

模型特点

优化的微调技术

采用OFT（Optimized Fine-Tuning）技术显著提升基础模型的执行速度和任务成功率

多任务支持

在LIBERO任务套件的四个子集（Spatial、Object、Goal、Long）上进行了专门优化

多模态输入

支持视觉（主相机和腕部相机图像）、语言（任务描述）和本体感受状态的多模态输入

模型能力

视觉-语言理解

连续动作序列生成

机器人任务执行

多模态信息融合

使用案例

机器人控制

空间导航任务

根据视觉输入和任务描述完成空间导航和物体操作

在LIBERO-Spatial任务上表现优异

长期任务执行

执行需要多步骤规划的长期机器人任务

在LIBERO-Long任务上表现良好

🚀 微调视觉-语言-动作模型：优化速度与成功率

本项目包含在4个LIBERO任务套件（-Spatial、-Object、-Goal、-Long）上训练的OpenVLA - OFT检查点，具体内容可参考论文Fine - Tuning Vision - Language - Action Models: Optimizing Speed and Success。OpenVLA - OFT通过采用优化的微调技术，在基础OpenVLA模型的基础上有显著提升。

项目页面：https://openvla-oft.github.io/

代码仓库：https://github.com/openvla-oft/openvla-oft

其他OpenVLA - OFT检查点请见：https://huggingface.co/moojink?search_models=oft

🚀 快速开始

此示例展示了如何使用预训练的OpenVLA - OFT检查点生成动作块。请确保你已按照GitHub README中的说明设置好conda环境。

import pickle
from experiments.robot.libero.run_libero_eval import GenerateConfig
from experiments.robot.openvla_utils import get_action_head, get_processor, get_proprio_projector, get_vla, get_vla_action
from prismatic.vla.constants import NUM_ACTIONS_CHUNK, PROPRIO_DIM
# 实例化配置（配置定义见experiments/robot/libero/run_libero_eval.py中的GenerateConfig类）
cfg = GenerateConfig(
    pretrained_checkpoint = "moojink/openvla-7b-oft-finetuned-libero-spatial",
    use_l1_regression = True,
    use_diffusion = False,
    use_film = False,
    num_images_in_input = 2,
    use_proprio = True,
    load_in_8bit = False,
    load_in_4bit = False,
    center_crop = True,
    num_open_loop_steps = NUM_ACTIONS_CHUNK,
    unnorm_key = "libero_spatial_no_noops",
)
# 加载OpenVLA-OFT策略和输入处理器
vla = get_vla(cfg)
processor = get_processor(cfg)
# 加载MLP动作头以生成连续动作（通过L1回归）
action_head = get_action_head(cfg, llm_dim=vla.llm_dim)
# 加载本体感受投影仪以将本体感受映射到语言嵌入空间
proprio_projector = get_proprio_projector(cfg, llm_dim=vla.llm_dim, proprio_dim=PROPRIO_DIM)

# 加载示例观察数据：
#   observation (dict): {
#     "full_image": 主第三人称图像,
#     "wrist_image": 腕部安装相机图像,
#     "state": 机器人本体感受状态,
#     "task_description": 任务描述,
#   }
with open("experiments/robot/libero/sample_libero_spatial_observation.pkl", "rb") as file:
    observation = pickle.load(file)
# 生成机器人动作块（未来动作序列）
actions = get_vla_action(cfg, vla, processor, observation, observation["task_description"], action_head, proprio_projector)
print("Generated action chunk:")
for act in actions:
    print(act)

📄 许可证

本项目采用MIT许可证。

📚 引用信息

@article{kim2025fine,
  title={Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success},
  author={Kim, Moo Jin and Finn, Chelsea and Liang, Percy},
  journal={arXiv preprint arXiv:2502.19645},
  year={2025}
}