雷锋网|你的《超级马里奥兄弟》通关了没？基于PPO强化学习算法的AI成功拿下29个关卡！( 二 )

PPO算法的基准任务测试
在游戏角色的AI训练中，一种基本的功能是具备连续性的运行和转向，如在马里奥在遇到诸如地面或者空中障碍时，能够以此为目标进行跳转和躲避。论文中，研究人员为了展示PPO的高维连续控制性能，采用3D人形机器人进行了测试，测试任务分别为：
（1）仅向前运动；（2）每200个时间步长或达到目标时，目标位置就会随机变化；（3）被目标击倒后，需要从地面站起来。以下从左至右依次为这三个任务的学习曲线。

本文插图
研究人员从以上学习曲线中，随机抽取了任务二在某一时刻的性能表现。如下图，

本文插图
可以看出，在第六帧的放大图中，人形机器人朝目标移动，然后随机改变位置，机器人能够跟随转向并朝新目标运行。说明PPO算法在连续转控方面具备出色的性能表现。
那么它在具体游戏中“获胜率”如何呢？研究人员运用Atari游戏合集（含49个）对其进行验证，同时与A2C和ACER两种算法进行了对比。为排除干扰因素，三种算法全部使用了相同的策略网络体系，同时，对其他两种算法进行超参数优化，确保其在基准任务上的性能最大化。

本文插图
如上图，研究人员采用了两个评估指标：（1）在整个训练期间每集的平均获胜数；（2）在持续100集训练中的每集的平均获胜数。前者更适合快速学习，后者有助于最终的比赛表现。可以看出PPO在指标一种的获胜次数达到了30 ，在小样本下有更高的胜率。
最后研究人员还强调， PPO近端策略优化的优势还在于简洁好用，仅需要几行代码就可以更改为原始策略梯度实现，适用于更常规的设置，同时也具有更好的整体效果。
更多论文详细内容，请参见地址：https://arxiv.org/abs/1707.06347
马里奥大叔闯关视频完整版
最后一问：
《雪人兄弟》《绿色兵团》《忍者神龟》《双截龙》《魂斗罗》等众多经典FC游戏中，你最喜欢哪一个，是否全部通关了呢？
引用链接：（雷锋网雷锋网雷锋网）
https://www.reddit.com/r/MachineLearning/comments/hy3hry/p_python_implementation_of_proximal_policy/