木法沙和三傻▲但它还不够万能,DeepMind的人工智能现可玩全部57款雅达利游戏
文章图片
最新消息:一种名为Agent57的人工智能已经学会在Arcade学习环境中玩所有57款雅达利(Atari)电子游戏 , 这是一组经典游戏 , 研究人员用它们来测试深度学习模型的极限 。 由DeepMind开发的Agent57使用相同的深度强化学习算法 , 即使在以前的人工智能难以应付的游戏中 , 也能达到超人的水平 。 能够学习57种不同的任务使得Agent57比以前的AI更加通用 。
游戏里有什么?游戏是测试人工智能的好方法 。 它们提供了各种各样的挑战 , 迫使人工智能提出一系列的战略 , 但仍然有一个明确的衡量成功的指标——训练的目标 。 但事实证明 , 雅达利的四场比赛尤其难以击败 。 在蒙特祖玛的《复仇与陷阱》中 , AI必须尝试许多不同的策略 , 然后才能找到获胜的策略 。 在Solaris和Skiing滑雪游戏中 , 动作和奖励之间可能会有很长时间的等待 , 这让人工智能很难知道哪些动作获得了最好的回报 。
为了应对这些挑战 , Agent57整合了DeepMind对其Deep-Q网络所做的多项改进 , 这款AI在2012年首次击败了几款雅达利游戏 , 包括一种记忆形式 , 它可以根据之前在游戏中看到的东西做出决定 , 以及奖励系统 , 鼓励AI在确定战略之前更充分地探索自己的选择 。 然后 , 这些不同的技术由元控制器管理 , 元控制器在使用特定策略和进行更多探索之间进行权衡 。
【木法沙和三傻▲但它还不够万能,DeepMind的人工智能现可玩全部57款雅达利游戏】为什么重要:尽管他们取得了成功 , 我们今天所拥有的最好的深度学习模式并不是万能的 。 大多数人往往擅长一件事 , 而且只擅长一件事 。 在深度学习中 , 训练人工智能超越一项以上的任务是最大的开放挑战之一 。 学习57种不同任务的能力使得Agent57比以前的游戏AI更加通用 , 但是 , 有一点经常被忽略 , 就是它仍然不能一次学习玩多个游戏 。 Agent57可以学习玩57款游戏 , 但不能同时学习玩57款游戏 。 它需要为每个新游戏重新训练 , 即使它可以使用相同的算法来做到这一点 。 在这方面 , Agent57与AlphaZero类似 , 后者是DeepMind的深度强化学习算法 , 可以学习下棋、围棋和射击——但不是一次全部 。 对于人类婴儿来说容易获得的学习通用性 , 仍远远超出了AI的能力范围 。