td3-HalfCheetah-v3开源强化学习智能体 - 助力HalfCheetah环境获高奖励

首页

Td3 HalfCheetah V3

由 sb3 开发

这是一个基于stable-baselines3库训练的TD3强化学习智能体，专为HalfCheetah-v3环境设计，平均奖励达到9709.01。

物理学模型 #连续动作控制 #高奖励性能 #深度强化学习

下载量 23

发布时间 : 6/2/2022

模型简介

TD3（Twin Delayed DDPG）是一种深度强化学习算法，适用于连续动作空间的控制任务。该模型在HalfCheetah-v3环境中表现出色，能够控制一个模拟的猎豹机器人高效运动。

模型特点

高性能控制

在HalfCheetah-v3环境中实现了9709.01的平均奖励，表现优异。

稳定训练

采用TD3算法，通过双Q网络和延迟策略更新等技术确保训练稳定性。

易于集成

基于stable-baselines3框架，可轻松与其他RL工具和库集成使用。

模型能力

连续动作空间控制

机器人运动控制

强化学习任务解决

使用案例

机器人控制

猎豹机器人运动控制

控制模拟猎豹机器人实现高效运动

平均奖励达到9709.01

算法研究

强化学习算法比较

作为基准模型用于比较不同强化学习算法性能

🚀 TD3 智能体玩转 HalfCheetah-v3

本项目是一个经过训练的 TD3 智能体，它使用 stable-baselines3 库和 RL Zoo 来玩 HalfCheetah-v3 游戏。RL Zoo 是一个用于 Stable Baselines3 强化学习智能体的训练框架，包含超参数优化和预训练智能体。

🚀 快速开始

模型使用（借助 SB3 RL Zoo）

RL Zoo: https://github.com/DLR-RM/rl-baselines3-zoo
SB3: https://github.com/DLR-RM/stable-baselines3
SB3 Contrib: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib

# 下载模型并保存到 logs/ 文件夹中
python -m rl_zoo3.load_from_hub --algo td3 --env HalfCheetah-v3 -orga sb3 -f logs/
python enjoy.py --algo td3 --env HalfCheetah-v3  -f logs/

模型训练（借助 RL Zoo）

python train.py --algo td3 --env HalfCheetah-v3 -f logs/
# 上传模型并生成视频（若可行）
python -m rl_zoo3.push_to_hub --algo td3 --env HalfCheetah-v3 -f logs/ -orga sb3

✨ 主要特性

本项目使用 TD3 算法训练智能体，在 HalfCheetah-v3 环境中取得了不错的效果。以下是该模型的相关指标：

属性	详情
模型类型	TD3
训练数据	HalfCheetah-v3
平均奖励	9709.01 ± 104.84

💻 使用示例

基础用法

# 下载模型并保存到 logs/ 文件夹中
python -m rl_zoo3.load_from_hub --algo td3 --env HalfCheetah-v3 -orga sb3 -f logs/
python enjoy.py --algo td3 --env HalfCheetah-v3  -f logs/

高级用法

# 训练模型
python train.py --algo td3 --env HalfCheetah-v3 -f logs/
# 上传模型并生成视频（若可行）
python -m rl_zoo3.push_to_hub --algo td3 --env HalfCheetah-v3 -f logs/ -orga sb3

🔧 技术细节

超参数设置

OrderedDict([('learning_starts', 10000),
             ('n_timesteps', 1000000.0),
             ('policy', 'MlpPolicy'),
             ('normalize', False)])

这些超参数在训练 TD3 智能体时起到了关键作用，影响着模型的收敛速度和最终性能。例如，learning_starts 控制着智能体在开始学习之前的随机探索步数，n_timesteps 则决定了训练的总时间步长。