P

Ppo LunarLander V2

由 sigalaz 开发
这是一个基于PPO算法的强化学习模型,用于解决月球着陆器-v2环境中的控制任务。
下载量 20
发布时间 : 7/8/2022
模型介绍
内容详情
替代品

模型简介

该模型使用Proximal Policy Optimization (PPO)算法在月球着陆器-v2环境中训练,能够学习如何控制航天器安全着陆。

模型特点

基于PPO算法
使用Proximal Policy Optimization算法,这是一种先进的强化学习算法,具有稳定的训练特性。
连续动作空间处理
能够处理连续动作空间的控制问题,适合航天器着陆这类精细控制任务。
稳定训练
PPO算法设计用于减少训练过程中的策略更新幅度,从而保持训练稳定性。

模型能力

航天器控制
连续动作决策
强化学习任务解决

使用案例

航天模拟
月球着陆器控制
模拟控制航天器在月球表面安全着陆的过程
平均奖励达到274.78 +/- 19.67
教育演示
强化学习教学
作为强化学习算法教学的典型案例