T

Testpyramidsrnd

由 mariastull 开发
这是一个基于PPO算法的强化学习智能体,专门训练用于Unity ML-Agents的金字塔环境。
下载量 22
发布时间 : 7/11/2022
模型介绍
内容详情
替代品

模型简介

该模型使用PPO(近端策略优化)算法训练,能够在Unity的ML-Agents金字塔环境中执行导航或目标达成任务。

模型特点

Unity环境集成
专为Unity ML-Agents金字塔环境设计,可直接在Unity模拟器中运行
PPO算法
采用近端策略优化算法,平衡探索与利用,实现稳定训练
可视化演示
支持通过Hugging Face Spaces直接观看智能体运行表现

模型能力

3D环境导航
目标识别与达成
强化学习决策

使用案例

游戏AI
金字塔探索AI
智能体在金字塔环境中自主探索并完成任务
可观察智能体在复杂3D环境中的决策过程
强化学习教学
PPO算法演示
展示PPO算法在3D环境中的实际应用
直观理解强化学习训练过程