T

Td3 HalfCheetah V3

由 sb3 开发
这是一个基于stable-baselines3库训练的TD3强化学习智能体,专为HalfCheetah-v3环境设计,平均奖励达到9709.01。
下载量 23
发布时间 : 6/2/2022
模型介绍
内容详情
替代品

模型简介

TD3(Twin Delayed DDPG)是一种深度强化学习算法,适用于连续动作空间的控制任务。该模型在HalfCheetah-v3环境中表现出色,能够控制一个模拟的猎豹机器人高效运动。

模型特点

高性能控制
在HalfCheetah-v3环境中实现了9709.01的平均奖励,表现优异。
稳定训练
采用TD3算法,通过双Q网络和延迟策略更新等技术确保训练稳定性。
易于集成
基于stable-baselines3框架,可轻松与其他RL工具和库集成使用。

模型能力

连续动作空间控制
机器人运动控制
强化学习任务解决

使用案例

机器人控制
猎豹机器人运动控制
控制模拟猎豹机器人实现高效运动
平均奖励达到9709.01
算法研究
强化学习算法比较
作为基准模型用于比较不同强化学习算法性能