P

Ppo Pendulum V1

由 ernestumorga 开发
这是一个基于PPO算法的强化学习模型,用于解决Pendulum-v1环境中的控制问题。
下载量 16
发布时间 : 6/7/2022
模型介绍
内容详情
替代品

模型简介

该模型使用PPO(Proximal Policy Optimization)算法在Pendulum-v1环境中进行训练,旨在实现倒立摆的稳定控制。

模型特点

基于PPO算法
使用PPO算法进行训练,这是一种先进的策略优化方法,能够在保持训练稳定性的同时实现高效学习。
多环境并行训练
支持4个环境并行训练(n_envs=4),提高了训练效率。
状态依赖探索
使用状态依赖探索(use_sde=True),增强了探索能力。

模型能力

倒立摆控制
连续动作空间处理
强化学习策略优化

使用案例

控制问题
倒立摆平衡控制
控制倒立摆使其保持直立状态
平均奖励:-227.99 +/- 144.65