td3-Hopper-v3开源智能体模型 - 免费部署助力Hopper-v3环境强化学习

首页

Td3 Hopper V3

由 sb3 开发

这是一个基于stable-baselines3库训练的TD3智能体模型，专门用于Hopper-v3环境中的强化学习任务。

物理学模型 #强化学习控制 #机器人运动控制 #连续动作空间

下载量 30

发布时间 : 6/2/2022

模型简介

该模型使用Twin Delayed DDPG (TD3)算法训练，适用于连续动作空间的强化学习任务，特别是在Hopper-v3环境中表现出色。

模型特点

高性能控制

在Hopper-v3环境中实现了3604.63的平均奖励，表现优异。

稳定训练

采用TD3算法，有效解决了DDPG算法中的高估问题，训练更加稳定。

简单集成

可与stable-baselines3和RL Zoo框架无缝集成，便于使用和扩展。

模型能力

连续动作空间控制

强化学习任务执行

机器人运动控制

使用案例

机器人控制

单腿机器人跳跃控制

控制模拟环境中的单腿机器人完成跳跃和平衡任务

平均奖励达到3604.63

算法研究

强化学习算法比较

作为基准模型用于比较不同强化学习算法的性能

属性	详情
模型类型	TD3
训练数据	Hopper-v3
平均奖励	3604.63 ± 4.84

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Td3 Hopper V3

模型简介

模型特点

模型能力

使用案例

🚀 稳定基线3（Stable-Baselines3）TD3智能体在Hopper-v3环境中的应用

模型指标

🚀 快速开始

模型使用（借助SB3 RL Zoo）

模型训练（借助RL Zoo）

💻 使用示例

基础用法

高级用法

🔧 技术细节

超参数设置