T

Testpyramidsrnd

由 Mahmoud7 开发
这是一个基于PPO算法的强化学习智能体,专门训练用于Unity ML-Agents的金字塔环境。
下载量 16
发布时间 : 8/11/2022
模型介绍
内容详情
替代品

模型简介

该模型使用PPO(近端策略优化)算法在Unity的ML-Agents金字塔环境中进行训练,能够完成特定的导航或任务解决目标。

模型特点

Unity环境集成
专为Unity ML-Agents金字塔环境设计,可直接在Unity中部署运行
PPO算法
采用近端策略优化算法,平衡探索与利用,实现稳定的策略学习
实时演示
支持通过Hugging Face Spaces进行实时演示观看

模型能力

环境导航
任务解决
强化学习决策

使用案例

游戏AI
金字塔环境导航
智能体在金字塔迷宫中导航并完成任务
可观察智能体在环境中的决策路径
教育演示
强化学习教学
展示PPO算法在实际环境中的应用
直观展示强化学习训练效果