进化策略让 AI 开挂,玩游戏不断给自己续命
傻大方提示您本文标题是:《进化策略让 AI 开挂,玩游戏不断给自己续命》。来源是。
进化策略让 AI 开挂,玩游戏不断给自己续命。开挂|策略|游戏|进化|雷锋---
雷锋网按:这里是,雷锋字幕组编译的Two minutes paper专栏,每周带大家用碎片时间阅览前沿技术,了解AI领域的最新研究成果。
原标题 This Evolving AI Finds Bugs in Games - Two Minute Papers #250
翻译 | 孙启超 整理 | 凡江
开挂|策略|游戏|进化|雷锋---傻大方小编总结的关键词
强化学习会通过在系统中选择一系列的行为,把分数提到最高水平。我们可以将这类技术运用于训练一种可以打爆各种各样游戏的人工智能,例如在 Q bert 游戏中,人工智能每走一步,都要计算出合适的操作来控制这个橙色的光标,并在不碰到紫色敌人的情况下,点亮所有的立方体。
针对部分具有挑战性的深度强化学习问题,比如雅达利游戏,已经有研究表明,进化策略(Evolution Strategies)是强化学习的可行替代方案。
进化策略让 AI 开挂,玩游戏不断给自己续命。开挂|策略|游戏|进化|雷锋---
本期论文所提出的进化策略,目标不仅是训练一个代理 而是并行训练所有代理,这种方法效率很高,就像大自然的进化那样,优胜劣汰,表现最好的代理产生新的后代。Open AI 最近的研究结果表明,比起深度强化学习的各种通用手段,自然进化策略也不失为一种好的替代手段。本期论文使用的进化策略证明了,即便是年代久远的进化策略,最后的成绩也非常喜人。
开挂|策略|游戏|进化|雷锋---傻大方小编总结的关键词
更酷的是,在经过 5 个小时的训练后,我们发现该算法不仅能掌控游戏,还能通过很多有创造性的方式完胜 Q bert 中的机器人玩家。
当它下落牺牲自己来引诱紫点时,出了个小故障,令我们惊喜的是,当从这个位置下落的时候,它应该是丢一条命,但因为这是个 BUG,所以没有死掉。
开挂|策略|游戏|进化|雷锋---傻大方小编总结的关键词
厉害~ AI 给自己续命
还有一个非常酷的技术就是为了等待对手它会在那个位置来回跳,然后突然跳到另外一条路径上。
它发现并利用了另一个很严重的 BUG,据我所知这个 BUG 以前从来没有发生过,在完成第一阶段后。它开始以一种看似随机的方式在周围跳跃。过了一会 我们看到游戏并没有进入下个阶段,那些方格开始闪烁,人工智能可以想要多少分就拿多少分。
开挂|策略|游戏|进化|雷锋---傻大方小编总结的关键词
分数蹭蹭往上涨
通过进化策略,AI 可以轻轻松松搞定诸如像雅达利这样的游戏,甚至还能发现 Bug,简直是开了挂一般的存在。
视频原址:https://www.youtube.com/watch?v=wm8tK91k37U&t=105s
论文原址:https://arxiv.org/pdf/1802.08842.pdf
雷锋网雷锋网
- 六月(第三周)策略:七把“飞刀”,你接不接?
- 国金策略:A股几乎“无股不押” 个股股票质押风险值得警惕
- 6.7原油分析,黄金分析;原油黄金策略分析建议
- 我们是外星物质进化来的?彗星上发现的关键物质又增添一佐证
- 《侏罗纪世界:进化》开启预载 明晚即可养恐龙
- 叶檀受邀外联出国 赴约重庆论新政下的全球房产投资策略
- 【今日推荐】司库策略谈第49期:应对流动性新规的资负策略
- 崔智仁:6.9黄金下周一策略!加息来袭犹如雪上加霜黄金坚定看空
- 【策略】实事求是,规规矩矩—存款偏离度通知简评
- 崔智仁:6.8黄金美盘策略!避险情绪诱多黄金,加息前看空不变