T

Td3 Hopper V3

由 sb3 开发
这是一个基于stable-baselines3库训练的TD3智能体模型,专门用于Hopper-v3环境中的强化学习任务。
下载量 30
发布时间 : 6/2/2022
模型介绍
内容详情
替代品

模型简介

该模型使用Twin Delayed DDPG (TD3)算法训练,适用于连续动作空间的强化学习任务,特别是在Hopper-v3环境中表现出色。

模型特点

高性能控制
在Hopper-v3环境中实现了3604.63的平均奖励,表现优异。
稳定训练
采用TD3算法,有效解决了DDPG算法中的高估问题,训练更加稳定。
简单集成
可与stable-baselines3和RL Zoo框架无缝集成,便于使用和扩展。

模型能力

连续动作空间控制
强化学习任务执行
机器人运动控制

使用案例

机器人控制
单腿机器人跳跃控制
控制模拟环境中的单腿机器人完成跳跃和平衡任务
平均奖励达到3604.63
算法研究
强化学习算法比较
作为基准模型用于比较不同强化学习算法的性能