OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?(22)



在以上的实现基础之上,我们开始了一个全局模型(暂且称之为模型 A)的训练,下图是在所有58个训练关卡上随着训练帧数递增的平均得分

OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?

上图中的分数跳跃,对应的是解锁了某一个技能,使得智能体可以向前方继续走一长段距离。从上图可以看出,这个单一全局模型A到1.21.2亿帧之后基本就收敛了,大约平均在5500左右。我们将58个游戏自己的学习曲线展示出来不难发现,仍然有大量的游戏仍然在开始的地方卡住,如下图所示:



OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?