OpenAI 挑战《索尼克》，阿里南大队如何一举夺魁？(22) 用AI打游戏

在以上的实现基础之上，我们开始了一个全局模型（暂且称之为模型 A）的训练，下图是在所有58个训练关卡上随着训练帧数递增的平均得分

上图中的分数跳跃，对应的是解锁了某一个技能，使得智能体可以向前方继续走一长段距离。从上图可以看出，这个单一全局模型A到1.21.2亿帧之后基本就收敛了，大约平均在5500左右。我们将58个游戏自己的学习曲线展示出来不难发现，仍然有大量的游戏仍然在开始的地方卡住，如下图所示：