ppo-Pendulum-v1开源强化学习模型 - 免费部署解决控制问题

首页

Ppo Pendulum V1

由 ernestumorga 开发

这是一个基于PPO算法的强化学习模型，用于解决Pendulum-v1环境中的控制问题。

物理学模型 #连续控制 #物理模拟 #高效训练

下载量 16

发布时间 : 6/7/2022

模型简介

该模型使用PPO（Proximal Policy Optimization）算法在Pendulum-v1环境中进行训练，旨在实现倒立摆的稳定控制。

模型特点

基于PPO算法

使用PPO算法进行训练，这是一种先进的策略优化方法，能够在保持训练稳定性的同时实现高效学习。

多环境并行训练

支持4个环境并行训练（n_envs=4），提高了训练效率。

状态依赖探索

使用状态依赖探索（use_sde=True），增强了探索能力。

模型能力

倒立摆控制

连续动作空间处理

强化学习策略优化

使用案例

控制问题

倒立摆平衡控制

控制倒立摆使其保持直立状态

平均奖励：-227.99 +/- 144.65

🚀 PPO 智能体在 Pendulum-v1 环境中的应用

本项目是一个经过训练的 PPO 智能体，它使用 stable-baselines3 库和 RL Zoo 在 Pendulum-v1 环境中进行学习和交互。RL Zoo 是一个针对 Stable Baselines3 强化学习智能体的训练框架，包含超参数优化和预训练智能体。

🚀 快速开始

使用 SB3 RL Zoo 运行模型

RL Zoo 仓库地址：https://github.com/DLR-RM/rl-baselines3-zoo
SB3 仓库地址：https://github.com/DLR-RM/stable-baselines3
SB3 Contrib 仓库地址：https://github.com/Stable-Baselines-Team/stable-baselines3-contrib

# 下载模型并保存到 logs/ 文件夹
python -m utils.load_from_hub --algo ppo --env Pendulum-v1 -orga ernestumorga -f logs/
python enjoy.py --algo ppo --env Pendulum-v1  -f logs/

使用 RL Zoo 进行训练

python train.py --algo ppo --env Pendulum-v1 -f logs/
# 上传模型并生成视频（如果可能）
python -m utils.push_to_hub --algo ppo --env Pendulum-v1 -f logs/ -orga ernestumorga

📦 安装指南

文档中未明确提及安装步骤，可参考相关库的官方文档进行安装：

💻 使用示例

基础用法

# 下载模型并保存到 logs/ 文件夹
python -m utils.load_from_hub --algo ppo --env Pendulum-v1 -orga ernestumorga -f logs/
python enjoy.py --algo ppo --env Pendulum-v1  -f logs/

高级用法

# 使用 RL Zoo 进行训练
python train.py --algo ppo --env Pendulum-v1 -f logs/
# 上传模型并生成视频（如果可能）
python -m utils.push_to_hub --algo ppo --env Pendulum-v1 -f logs/ -orga ernestumorga

🔧 技术细节

超参数设置

OrderedDict([('clip_range', 0.2),
             ('ent_coef', 0.0),
             ('gae_lambda', 0.95),
             ('gamma', 0.9),
             ('learning_rate', 0.001),
             ('n_envs', 4),
             ('n_epochs', 10),
             ('n_steps', 1024),
             ('n_timesteps', 100000.0),
             ('policy', 'MlpPolicy'),
             ('sde_sample_freq', 4),
             ('use_sde', True),
             ('normalize', False)])