ppo-HalfCheetah-v3开源强化学习模型 - 免费助力HalfCheetah-v3环境训练优化

首页

Ppo HalfCheetah V3

由 sb3 开发

这是一个基于PPO算法的强化学习模型，专为HalfCheetah-v3环境设计，由stable-baselines3库训练。

物理学模型 #强化学习控制 #机器人运动训练 #高奖励策略

下载量 51

发布时间 : 6/2/2022

模型简介

该模型使用PPO（近端策略优化）算法在HalfCheetah-v3环境中进行训练，能够控制半人马机器人模拟运动任务。

模型特点

高性能运动控制

在HalfCheetah-v3环境中实现了5836.27的平均奖励，表现出色。

优化的超参数

使用了经过优化的超参数配置，包括学习率、批量大小等。

稳定训练

采用PPO算法，确保了训练过程的稳定性。

模型能力

机器人运动控制

强化学习任务执行

连续动作空间处理

使用案例

机器人模拟

半人马机器人运动控制

控制模拟的半人马机器人完成奔跑等运动任务

平均奖励达到5836.27

算法研究

强化学习算法比较

作为基准模型用于比较不同强化学习算法的性能

🚀 PPO 智能体玩转 HalfCheetah-v3

本项目是一个经过训练的 PPO 智能体，它使用 stable-baselines3 库和 RL Zoo 来玩 HalfCheetah-v3 游戏。

RL Zoo 是一个用于 Stable Baselines3 强化学习智能体的训练框架，它包含超参数优化和预训练智能体。

🚀 快速开始

本模型借助 stable-baselines3 库和 RL Zoo 训练而成。下面为你介绍如何使用和训练该模型。

📦 安装指南

使用本项目前，请确保你已安装以下依赖：

RL Zoo: https://github.com/DLR-RM/rl-baselines3-zoo
SB3: https://github.com/DLR-RM/stable-baselines3
SB3 Contrib: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib

💻 使用示例

基础用法

以下代码展示了如何从模型中心下载模型并运行：

# 下载模型并保存到 logs/ 文件夹
python -m rl_zoo3.load_from_hub --algo ppo --env HalfCheetah-v3 -orga sb3 -f logs/
python enjoy.py --algo ppo --env HalfCheetah-v3  -f logs/

高级用法

以下代码展示了如何使用 RL Zoo 训练模型并将其上传到模型中心：

# 使用 RL Zoo 进行训练
python train.py --algo ppo --env HalfCheetah-v3 -f logs/
# 上传模型并生成视频（如果可能）
python -m rl_zoo3.push_to_hub --algo ppo --env HalfCheetah-v3 -f logs/ -orga sb3

🔧 技术细节

模型指标

属性	详情
模型类型	PPO
训练数据	HalfCheetah-v3
平均奖励	5836.27 +/- 171.68

超参数

OrderedDict([('batch_size', 64),
             ('clip_range', 0.1),
             ('ent_coef', 0.000401762),
             ('gae_lambda', 0.92),
             ('gamma', 0.98),
             ('learning_rate', 2.0633e-05),
             ('max_grad_norm', 0.8),
             ('n_envs', 1),
             ('n_epochs', 20),
             ('n_steps', 512),
             ('n_timesteps', 1000000.0),
             ('normalize', True),
             ('policy', 'MlpPolicy'),
             ('policy_kwargs',
              'dict( log_std_init=-2, ortho_init=False, activation_fn=nn.ReLU, '
              'net_arch=[dict(pi=[256, 256], vf=[256, 256])] )'),
             ('vf_coef', 0.58096),
             ('normalize_kwargs', {'norm_obs': True, 'norm_reward': False})])