ppo-MountainCarContinuous-v0开源智能体 - 有效解决山地车连续控制问题

首页

Ppo MountainCarContinuous V0

由 sb3 开发

这是一个基于PPO算法的强化学习智能体，专门为MountainCarContinuous-v0环境训练，能够有效解决连续控制的山地车问题。

物理学模型 #连续动作控制 #小样本高效训练 #自定义策略优化

下载量 433

发布时间 : 5/20/2022

模型简介

该模型使用stable-baselines3库中的PPO算法训练，适用于MountainCarContinuous-v0环境，能够学习如何控制山地车到达山顶。

模型特点

高效训练

使用PPO算法进行训练，在较少的训练步数内获得较高的平均奖励。

稳定性能

模型表现稳定，平均奖励达到94.57±0.45。

参数优化

使用RL Zoo框架进行超参数优化，确保模型性能最佳。

模型能力

连续动作空间控制

强化学习任务解决

环境交互学习

使用案例

强化学习研究

连续控制基准测试

可作为连续控制任务的基准模型进行比较研究

平均奖励94.57±0.45

教学演示

强化学习教学案例

用于展示PPO算法在连续控制任务中的应用

🚀 PPO 智能体在 MountainCarContinuous-v0 环境中的应用

本项目是一个经过训练的 PPO 智能体，它使用 stable-baselines3 库和 RL Zoo 在 MountainCarContinuous-v0 环境中进行学习和决策。RL Zoo 是一个用于 Stable Baselines3 强化学习智能体的训练框架，其中包含超参数优化和预训练智能体。

🚀 快速开始

模型评估

# 下载模型并保存到 logs/ 文件夹
python -m rl_zoo3.load_from_hub --algo ppo --env MountainCarContinuous-v0 -orga sb3 -f logs/
python enjoy.py --algo ppo --env MountainCarContinuous-v0  -f logs/

模型训练

python train.py --algo ppo --env MountainCarContinuous-v0 -f logs/
# 上传模型并生成视频（如果可能）
python -m rl_zoo3.push_to_hub --algo ppo --env MountainCarContinuous-v0 -f logs/ -orga sb3

✨ 主要特性

环境支持：支持 MountainCarContinuous-v0 环境。
算法类型：使用 PPO（近端策略优化）算法。
训练框架：基于 stable-baselines3 库和 RL Zoo 进行训练。

📦 安装指南

RL Zoo: https://github.com/DLR-RM/rl-baselines3-zoo
SB3: https://github.com/DLR-RM/stable-baselines3
SB3 Contrib: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib

请根据上述链接中的说明进行安装。

💻 使用示例

基础用法

# 下载模型并保存到 logs/ 文件夹
python -m rl_zoo3.load_from_hub --algo ppo --env MountainCarContinuous-v0 -orga sb3 -f logs/
python enjoy.py --algo ppo --env MountainCarContinuous-v0  -f logs/

高级用法

# 模型训练
python train.py --algo ppo --env MountainCarContinuous-v0 -f logs/
# 上传模型并生成视频（如果可能）
python -m rl_zoo3.push_to_hub --algo ppo --env MountainCarContinuous-v0 -f logs/ -orga sb3

🔧 技术细节

超参数设置

OrderedDict([('batch_size', 256),
             ('clip_range', 0.1),
             ('ent_coef', 0.00429),
             ('gae_lambda', 0.9),
             ('gamma', 0.9999),
             ('learning_rate', 7.77e-05),
             ('max_grad_norm', 5),
             ('n_envs', 1),
             ('n_epochs', 10),
             ('n_steps', 8),
             ('n_timesteps', 20000.0),
             ('normalize', True),
             ('policy', 'MlpPolicy'),
             ('policy_kwargs', 'dict(log_std_init=-3.29, ortho_init=False)'),
             ('use_sde', True),
             ('vf_coef', 0.19),
             ('normalize_kwargs', {'norm_obs': True, 'norm_reward': False})])