让我们从技术视角看一下新 AlphaStar 训练环境 。它包含三个代理池,每个都由监督学习进行初始化,随后用强化学习进行训练 。在训练过程中,这些代理会周期性地将自己的副本——被冻结在特定时间点的“玩家”——添加到联盟中 。主代理与所有这些过去的玩家以及他自己进行训练 。暴露者代理针对所有过去的玩家进行训练 。主要暴露者针对主代理人进行训练 。主要暴露者和联盟暴露者在向联盟添加新玩家时可以将其初始化为监督学习的代理 。
文章插图
新AlphaStar是《星际争霸2》中第一个达到宗师级别的AI代理 。构建AlphaStar的经验可以应用于许多自学习场景,如自动驾驶汽车、数字助理或机器人,在这些场景中,代理需要在组合行动空间中做出决策 。AlphaStar表明,自学习人工智能系统可以应用于现实世界的许多复杂场景,并取得了令人瞩目的效果 。
【AlphaZero使用教程 alpha操作系统】
- append的用法 append函数的意思及用法
- 流体暴力熊制作教程 流体熊颜色搭配攻略
- 如何用ps扣头发丝 ps抠头发丝教程
- 欧元区包括了所有欧盟成员 欧元区有哪些国家使用欧元
- xovo血清蛋白精华使用评测 xovo血清蛋白精华好用吗
- 淘宝怎么快速获得淘金币 淘宝淘金币如何使用
- 阿芙马迷纯露使用测评 阿芙马迷纯露怎么样
- word学习全套教程
- xp升级win7教程 xp系统如何升级win7系统
- 新手上路汽车灯光正确使用 汽车灯光开关使用方法