超级马里奥兄弟|你的《超级马里奥兄弟》通关了没?AI成功拿下29个关卡( 二 )


(1)仅向前运动;(2)每200个时间步长或达到目标时,目标位置就会随机变化;(3)被目标击倒后,需要从地面站起来 。以下从左至右依次为这三个任务的学习曲线 。
超级马里奥兄弟|你的《超级马里奥兄弟》通关了没?AI成功拿下29个关卡
文章图片
研究人员从以上学习曲线中,随机抽取了任务二在某一时刻的性能表现 。如下图,
超级马里奥兄弟|你的《超级马里奥兄弟》通关了没?AI成功拿下29个关卡
文章图片
可以看出,在第六帧的放大图中,人形机器人朝目标移动,然后随机改变位置,机器人能够跟随转向并朝新目标运行 。说明PPO算法在连续转控方面具备出色的性能表现 。
那么它在具体游戏中“获胜率”如何呢?研究人员运用Atari游戏合集(含49个)对其进行验证,同时与A2C和ACER两种算法进行了对比 。为排除干扰因素,三种算法全部使用了相同的策略网络体系,同时,对其他两种算法进行超参数优化,确保其在基准任务上的性能最大化 。
超级马里奥兄弟|你的《超级马里奥兄弟》通关了没?AI成功拿下29个关卡
文章图片
如上图,研究人员采用了两个评估指标:(1)在整个训练期间每集的平均获胜数;(2)在持续100集训练中的每集的平均获胜数 。前者更适合快速学习,后者有助于最终的比赛表现 。可以看出PPO在指标一种的获胜次数达到了30,在小样本下有更高的胜率 。
最后研究人员还强调,PPO近端策略优化的优势还在于简洁好用,仅需要几行代码就可以更改为原始策略梯度实现,适用于更常规的设置,同时也具有更好的整体效果 。
更多论文详细内容,请参见地址:https://arxiv.org/abs/1707.06347
最后一问:
【超级马里奥兄弟|你的《超级马里奥兄弟》通关了没?AI成功拿下29个关卡】《雪人兄弟》《绿色兵团》《忍者神龟》《双截龙》《魂斗罗》等众多经典FC游戏中,你最喜欢哪一个,是否全部通关了呢?