AlphaZero使用教程 alpha操作系统( 二 )


让我们从技术视角看一下新 AlphaStar 训练环境 。它包含三个代理池,每个都由监督学习进行初始化,随后用强化学习进行训练 。在训练过程中,这些代理会周期性地将自己的副本——被冻结在特定时间点的“玩家”——添加到联盟中 。主代理与所有这些过去的玩家以及他自己进行训练 。暴露者代理针对所有过去的玩家进行训练 。主要暴露者针对主代理人进行训练 。主要暴露者和联盟暴露者在向联盟添加新玩家时可以将其初始化为监督学习的代理 。

AlphaZero使用教程 alpha操作系统

文章插图
新AlphaStar是《星际争霸2》中第一个达到宗师级别的AI代理 。构建AlphaStar的经验可以应用于许多自学习场景,如自动驾驶汽车、数字助理或机器人,在这些场景中,代理需要在组合行动空间中做出决策 。AlphaStar表明,自学习人工智能系统可以应用于现实世界的许多复杂场景,并取得了令人瞩目的效果 。
【AlphaZero使用教程 alpha操作系统】