P

Ppo Pendulum V1

由 sb3 开发
这是一个基于PPO算法的强化学习模型,专门用于解决Pendulum-v1环境中的控制问题。
下载量 51
发布时间 : 5/4/2022
模型介绍
内容详情
替代品

模型简介

该模型使用Stable Baselines3库中的PPO算法训练,适用于Pendulum-v1环境,能够学习如何控制倒立摆保持直立状态。

模型特点

使用SDE技术
采用了状态依赖探索(State-Dependent Exploration)技术,提高了探索效率
稳定训练
基于PPO算法,确保训练过程的稳定性
高效学习
通过合理的超参数设置,实现高效学习

模型能力

倒立摆控制
连续动作空间处理
强化学习任务解决

使用案例

控制问题
倒立摆平衡控制
控制倒立摆保持在直立位置
平均奖励达到-230.42 ±142.54
教学演示
强化学习教学示例
作为强化学习算法的教学演示案例