ppo-BipedalWalker-v3开源智能体模型 - 用于Walker环境强化学习任务

首页

Ppo BipedalWalker V3

由 sb3 开发

这是一个使用 stable-baselines3 库训练的 PPO 智能体模型，专门用于 BipedalWalker-v3 环境中的强化学习任务。

蛋白质模型 #双足机器人控制 #强化学习训练 #高维动作空间

下载量 22

发布时间 : 6/2/2022

模型简介

该模型基于 PPO (Proximal Policy Optimization) 算法，用于训练一个双足行走机器人在 BipedalWalker-v3 环境中实现稳定行走。

模型特点

高性能强化学习

在 BipedalWalker-v3 环境中实现了 288.30 的平均奖励值

并行训练

使用 32 个并行环境进行训练，提高训练效率

参数优化

经过精心调优的超参数组合，包括学习率、批量大小等

模型能力

双足行走控制

强化学习训练

环境交互

使用案例

机器人控制

双足行走机器人训练

训练双足机器人实现稳定行走

平均奖励达到 288.30 ± 2.23

强化学习研究

PPO 算法性能验证

验证 PPO 算法在连续控制任务中的表现

在 BipedalWalker-v3 环境中表现良好

属性	详情
模型类型	PPO
训练数据	BipedalWalker-v3
平均奖励	288.30 +/- 2.23
任务类型	强化学习

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Ppo BipedalWalker V3

模型简介

模型特点

模型能力

使用案例

🚀 PPO 智能体玩转 BipedalWalker-v3

🚀 快速开始

模型使用（借助 SB3 RL Zoo）

模型训练（借助 RL Zoo）

📚 详细文档

超参数设置

模型指标