P

PPO LunarLander V2

由 BioGeek 开发
这是一个基于PPO算法的强化学习模型,专为LunarLander-v2环境训练,能够控制月球着陆器安全着陆。
下载量 102
发布时间 : 5/21/2022
模型介绍
内容详情
替代品

模型简介

该模型使用Proximal Policy Optimization (PPO)算法在LunarLander-v2环境中训练,用于解决连续动作空间的强化学习问题。

模型特点

稳定训练
使用PPO算法确保训练过程的稳定性
连续动作控制
能够处理连续动作空间的控制问题
高性能表现
在LunarLander-v2环境中达到271.97的平均奖励

模型能力

连续动作控制
强化学习任务解决
环境交互决策

使用案例

游戏AI
月球着陆器控制
模拟控制月球着陆器安全着陆
平均奖励271.97 +/- 16.91
教育演示
强化学习教学
展示PPO算法在实际环境中的应用