P

Ppo Hopper V3

由 sb3 开发
这是一个基于 stable-baselines3 库训练的 PPO 强化学习模型,专门用于 Hopper-v3 环境中的连续控制任务。
下载量 19
发布时间 : 6/2/2022
模型介绍
内容详情
替代品

模型简介

该模型使用近端策略优化(PPO)算法训练,用于解决 Hopper-v3 环境中的连续控制问题,使机器人学习跳跃移动。

模型特点

高性能表现
在 Hopper-v3 环境中实现了2410.11的平均奖励
稳定训练
使用PPO算法确保训练过程的稳定性
参数优化
经过精心调优的超参数配置

模型能力

连续动作空间控制
机器人运动控制
强化学习任务解决

使用案例

机器人控制
跳跃机器人控制
控制机器人实现稳定的跳跃移动
在Hopper-v3环境中达到2410.11的平均奖励
强化学习研究
算法基准测试
作为PPO算法在连续控制任务中的基准参考