雷锋网|你的《超级马里奥兄弟》通关了没?基于PPO强化学习算法的AI成功拿下29个关卡!( 二 )
PPO算法的基准任务测试
在游戏角色的AI训练中 , 一种基本的功能是具备连续性的运行和转向 , 如在马里奥在遇到诸如地面或者空中障碍时 , 能够以此为目标进行跳转和躲避 。 论文中 , 研究人员为了展示PPO的高维连续控制性能 , 采用3D人形机器人进行了测试 , 测试任务分别为:
(1)仅向前运动;(2)每200个时间步长或达到目标时 , 目标位置就会随机变化;(3)被目标击倒后 , 需要从地面站起来 。 以下从左至右依次为这三个任务的学习曲线 。
本文插图
研究人员从以上学习曲线中 , 随机抽取了任务二在某一时刻的性能表现 。 如下图 ,
本文插图
可以看出 , 在第六帧的放大图中 , 人形机器人朝目标移动 , 然后随机改变位置 , 机器人能够跟随转向并朝新目标运行 。 说明PPO算法在连续转控方面具备出色的性能表现 。
那么它在具体游戏中“获胜率”如何呢?研究人员运用Atari游戏合集(含49个)对其进行验证 , 同时与A2C和ACER两种算法进行了对比 。 为排除干扰因素 , 三种算法全部使用了相同的策略网络体系 , 同时 , 对其他两种算法进行超参数优化 , 确保其在基准任务上的性能最大化 。
本文插图
如上图 , 研究人员采用了两个评估指标:(1)在整个训练期间每集的平均获胜数;(2)在持续100集训练中的每集的平均获胜数 。前者更适合快速学习 , 后者有助于最终的比赛表现 。 可以看出PPO在指标一种的获胜次数达到了30 , 在小样本下有更高的胜率 。
最后研究人员还强调 , PPO近端策略优化的优势还在于简洁好用 , 仅需要几行代码就可以更改为原始策略梯度实现 , 适用于更常规的设置 , 同时也具有更好的整体效果 。
更多论文详细内容 , 请参见地址:https://arxiv.org/abs/1707.06347
马里奥大叔闯关视频完整版
最后一问:
《雪人兄弟》《绿色兵团》《忍者神龟》《双截龙》《魂斗罗》等众多经典FC游戏中 , 你最喜欢哪一个 , 是否全部通关了呢?
引用链接:(雷锋网雷锋网雷锋网)
https://www.reddit.com/r/MachineLearning/comments/hy3hry/p_python_implementation_of_proximal_policy/
- 穿搭|BM风烂大街,这些明星都爱的小众品牌入坑不亏,拯救你的不时髦
- 味姨|爽过裸穿!快扔掉你的“大妈”睡衣,好看的仙女都这么穿!
- 穿搭|扔掉你的短裤吧,今年流行这“3件”裤子,时髦遮肉又百搭
- 你的拍照男友|时尚男友:穿出淑女感的女生,清新靓丽
- 王小琉 你的私人健康助理,F25体温智能手表评测:实时监测
- 沈梦辰|满足你的少女心!沈梦辰穿搭青春又少女,堪比时尚减龄教科书
- ofo小黄车|ofo“人间蒸发”了!20亿欠款追债无门,你的押金退了吗?
- 创业板|你的创业板账户重签了吗?
- 【】ofo“消失”了,你的99块押金还要得回吗?
- 女性健康|如果你身体发生了这3种变化,说明你的生活已经不协调了