【DOTA之后新里程碑】DeepMind强化学习重大突破:AI在多人射击游(11)





从多智能体的角度看,CTF要求队员

既要成功地与队友合作,又要与对方敌手竞争,同时在可能遇到的任何比赛风格中保持稳健性

FTW智能体:等级分远超基线方法和人类玩家

为了使事情更有趣,我们设计了CTF的一种变体,令地图的布局在每一场竞赛中发生改变。这样,我们的智能体被迫要采用一般性策略,而不是记住地图的布局。此外,为了让游戏更加公平,智能体要以类似于人类的方式体验CTF的世界:它们观察一系列的像素图像,并通过模拟游戏控制器发出动作

【DOTA之后新里程碑】DeepMind强化学习重大突破:AI在多人射击游