P

Ppo HalfCheetah V3

由 sb3 开发
这是一个基于PPO算法的强化学习模型,专为HalfCheetah-v3环境设计,由stable-baselines3库训练。
下载量 51
发布时间 : 6/2/2022
模型介绍
内容详情
替代品

模型简介

该模型使用PPO(近端策略优化)算法在HalfCheetah-v3环境中进行训练,能够控制半人马机器人模拟运动任务。

模型特点

高性能运动控制
在HalfCheetah-v3环境中实现了5836.27的平均奖励,表现出色。
优化的超参数
使用了经过优化的超参数配置,包括学习率、批量大小等。
稳定训练
采用PPO算法,确保了训练过程的稳定性。

模型能力

机器人运动控制
强化学习任务执行
连续动作空间处理

使用案例

机器人模拟
半人马机器人运动控制
控制模拟的半人马机器人完成奔跑等运动任务
平均奖励达到5836.27
算法研究
强化学习算法比较
作为基准模型用于比较不同强化学习算法的性能