S

Sac Hopper V3

由 sb3 开发
这是一个基于SAC算法的强化学习模型,用于在Hopper-v3环境中控制机器人跳跃运动。
下载量 44
发布时间 : 6/2/2022
模型介绍
内容详情
替代品

模型简介

该模型使用Soft Actor-Critic (SAC)算法训练,专门用于解决Hopper-v3环境中的连续控制任务。

模型特点

基于SAC算法
使用Soft Actor-Critic算法,适合处理连续动作空间的强化学习问题
稳定训练
通过stable-baselines3实现,提供可靠的训练过程
高性能
在Hopper-v3环境中达到2266.78的平均奖励

模型能力

连续动作控制
机器人运动控制
强化学习任务解决

使用案例

机器人控制
Hopper机器人跳跃控制
控制模拟Hopper机器人的跳跃动作
平均奖励2266.78 +/- 1121.81
强化学习研究
连续控制基准测试
可作为连续控制任务的基准模型