P

Ppo LunarLanderContinuous V2

由 sb3 开发
这是一个基于PPO算法的强化学习智能体,专为LunarLanderContinuous-v2环境训练,能够控制登月器平稳着陆。
下载量 15
发布时间 : 6/2/2022
模型介绍
内容详情
替代品

模型简介

该模型使用stable-baselines3库中的PPO算法训练,适用于连续动作空间的月球着陆器控制任务。

模型特点

高性能连续控制
针对LunarLanderContinuous-v2环境优化,能够处理连续动作空间的控制问题
稳定训练
使用PPO算法确保训练过程的稳定性
并行训练
支持16个环境并行训练,提高训练效率

模型能力

连续动作空间控制
强化学习决策
自主着陆控制

使用案例

航天模拟
月球着陆器控制
模拟控制登月器在月球表面平稳着陆
平均奖励274.47 ± 24.37
教育研究
强化学习教学
作为PPO算法的教学示例