ML-Agents-SnowballFight-1vs1开源模型 - 免费构建1v1雪球对战智能体训练环境

首页

ML Agents SnowballFight 1vs1

由 ThomasSimonini 开发

基于Unity ML-Agents的1v1雪球对战多智能体训练环境，支持深度强化学习算法训练

目标检测开源协议:Apache-2.0 #多智能体对抗 #Unity强化学习 #射线检测观测

下载量 22

发布时间 : 3/2/2022

模型简介

这是一个专为多智能体对抗训练设计的Unity环境，模拟雪球对战场景，可用于研究智能体协作与竞争策略

模型特点

多模态观测空间

结合射线检测(30条前向+3条后向)和向量观测(速度/位置/生命值等)，提供丰富环境信息

竞技对抗机制

包含伤害奖励、时间惩罚等设计，支持智能体学习攻防策略

自博弈训练支持

配置文件预设自博弈参数，支持智能体通过对抗持续进化

可视化演示

提供训练好的模型和在线试玩链接，便于结果展示

模型能力

多智能体对抗训练

强化学习算法验证

策略博弈研究

实时环境交互

使用案例

学术研究

多智能体协作策略研究

研究智能体在对抗环境中的战术配合与策略演化

训练出ELO评分1766的智能体

深度强化学习算法验证

作为标准环境测试PPO等算法的多智能体训练效果

已完成510万步训练验证

教育演示

强化学习教学案例

通过可视化对战展示强化学习训练过程

提供在线试玩和训练模型

🚀 雪球大战 ☃️，由Hugging Face打造的ML-Agents多智能体环境

这是一个使用Unity ML-Agents Toolkit构建的多智能体环境，两个智能体将在1对1的雪球大战游戏中展开竞争。你可以通过在线链接体验该游戏，同时使用它需要你具备一定的ML-Agents技能。

🚀 快速开始

环境设置

克隆此项目：git clone https://huggingface.co/ThomasSimonini/ML-Agents-SnowballFight-1vs1
打开Unity Hub并创建一个新的3D项目。
在克隆的项目文件夹中，打开 .\ML-Agents-SnowballFight-1vs1\packages，复制 manifest.json 和 package.lock.json。
将这两个文件粘贴到 你的Unity项目\Packages 中，这将安装所需的包。
将 SnowballFight-1vs1 Unity包拖放到你的Unity项目中。

观看训练好的智能体

如果你想观看训练好的智能体，打开 Assets\1vs1\Scenes\1vs1_v2_Training，将 \ML-Agents-SnowballFight-1vs1\saved_model\SnowballFight1vs1-4999988.onnx 放入蓝方智能体和紫方智能体模型中。

训练智能体

如果你想再次训练它，场景为 Assets\1vs1\Scenes\1vs1_v2_Training。

✨ 主要特性

多智能体竞争：两个智能体在1对1的雪球大战游戏中竞争。
多样化的观察和动作空间：包括射线检测、向量观察和离散动作空间。
独特的奖励机制：根据智能体的表现给予奖励。
无友军伤害：智能体不会误伤自己或队友。

📦 安装指南

环境设置

克隆此项目 git clone https://huggingface.co/ThomasSimonini/ML-Agents-SnowballFight-1vs1
打开Unity Hub并创建一个新的3D项目。
在克隆的项目文件夹中，打开 .\ML-Agents-SnowballFight-1vs1\packages，复制 manifest.json 和 package.lock.json。
将这两个文件粘贴到 你的Unity项目\Packages 中，这将安装所需的包。
将 SnowballFight-1vs1 Unity包拖放到你的Unity项目中。

观看训练好的智能体

如果你想观看训练好的智能体，打开 Assets\1vs1\Scenes\1vs1_v2_Training，将 \ML-Agents-SnowballFight-1vs1\saved_model\SnowballFight1vs1-4999988.onnx 放入蓝方智能体和紫方智能体模型中。

训练智能体

如果你想再次训练它，场景为 Assets\1vs1\Scenes\1vs1_v2_Training。

📚 详细文档

环境介绍

两个智能体在 1对1的雪球大战游戏 中竞争。
目标是 击中对手团队，同时躲避对手的雪球 ❄️。

观察空间

射线检测：
- 10条向前的射线，分布在100度范围内：检测对手。
- 10条向前的射线，分布在100度范围内：检测墙壁、掩体和边界。
- 10条向前的射线，分布在100度范围内：检测雪球。
- 3条向后的射线，分布在45度范围内：检测墙壁和掩体。
向量观察：
- 布尔值 canShoot（每2秒只能发射一次雪球）。
- 浮点数 currentHealth：归一化范围为 [0, 1]。
- 向量3 垂直速度
- 向量3 水平速度
- 向量3 起始位置

动作空间（离散）

向量动作空间：
- 四个分支动作，分别对应向前、向后、侧向移动、旋转和发射雪球。

智能体奖励函数（依赖）

如果团队受伤：
- 射手获得0.1的奖励。
如果团队死亡：
- (1 - 累计时间惩罚)：当雪球击中对手时，累计时间惩罚每固定更新一次减少 (1 / MaxStep)，并在每局开始时重置为0。
- (-1) 当雪球击中我方团队时。

补充说明

没有友军伤害，这意味着智能体不能射击自己，或者在未来的2对2游戏中不能射击队友。

训练信息

SnowballFight1vs1 训练了5100000步。
最终ELO分数为1766.452。

配置文件

behaviors:
  SnowballFight1vs1:
    trainer_type: ppo
    hyperparameters:
      batch_size: 2048
      buffer_size: 20480
      learning_rate: 0.0003
      beta: 0.005
      epsilon: 0.2
      lambd: 0.95
      num_epoch: 3
      learning_rate_schedule: constant
    network_settings:
      normalize: false
      hidden_units: 512
      num_layers: 2
      vis_encode_type: simple
    reward_signals:
      extrinsic:
        gamma: 0.99
        strength: 1.0
    keep_checkpoints: 40
    checkpoint_interval: 200000
    max_steps: 50000000
    time_horizon: 1000
    summary_freq: 50000
    self_play:
      save_steps: 50000
      team_change: 200000
      swap_steps: 2000
      window: 10
      play_against_latest_model_ratio: 0.5
      initial_elo: 1200.0