通用版AlphaGo登《Nature》!最强AI棋手,不懂规则也能精通游戏( 二 )


通用版AlphaGo登《Nature》!最强AI棋手,不懂规则也能精通游戏文章插图
MuZero通过模拟下棋走向训练神经网络 。
而每一步棋对于整体棋局的贡献都会被累加 , 成为本次棋局最后的奖励 。
通用版AlphaGo登《Nature》!最强AI棋手,不懂规则也能精通游戏文章插图
策略函数P得到每一步预测下法 , 价值函数V得到每一步的奖励 。
出了减少建模工作量外 , 这种方法的另一个主要优点就是可以不断复盘 , 而不需要得到外界的新数据 。 这样的优势也很明显 , 在Atari的测试中 , 名为MuZero Reanalyze的变体可以利用90%的时间使用学习过的模型进行重新规划 , 找到更优策略 。
二、MuZero强在哪?追平前辈 , 拓宽Atari游戏战场MuZero模型分别自学了围棋、国际象棋、日本将棋以及Atari游戏 , 前三者用来评估模型在规划问题上的表现 , Atari则用来评估模型面对视觉游戏时的表现 。
通用版AlphaGo登《Nature》!最强AI棋手,不懂规则也能精通游戏文章插图
MuZero分别在国际象棋、日本将棋、围棋和Atari游戏训练中的评估结果 。 横坐标表示训练步骤数量 , 纵坐标表示 Elo评分 。 黄色线代表AlphaZero(在Atari游戏中代表人类表现) , 蓝色线代表MuZero 。
在围棋、国际象棋和日本将棋中 , MuZero不仅在多训练步骤的情况下达到甚至超过了“前辈”AlphaZero的水平 , 在Atari游戏中 , MuZero也表现突出 。
通用版AlphaGo登《Nature》!最强AI棋手,不懂规则也能精通游戏文章插图
MuZero在Atari游戏中的性能 。 所有得分均根据人类测试的性能进行了归一化 , 最佳结果以粗体显示 。
为了进一步评估MuZero模型的精确规划能力 , DeepMind的研究人员还进行了围棋中经典的高精度规划挑战 , 即指下一步就判断胜负 。
为了证实更多的训练时间能使MuZero模型更强大 , DeepMind进行了如下面左图实验 , 当每一步的判断时间从0.1秒延长到50秒 , 评价玩家技能的Elo指标能增加1000 , 相当于业余棋手和最强职业棋手之间的区别 。
而在右图的Atari游戏Ms Pac-Man(吃豆小姐)的测试中 , 也能很明显地看出训练时长越长时 , 模型表现越好 。
通用版AlphaGo登《Nature》!最强AI棋手,不懂规则也能精通游戏文章插图
左图:随着步骤判断时间增加 , 围棋Elo指标上涨;右图:训练时长越长 , 模型表现越好
结语:出身于游戏 , 期待更多应用基于环境要素建模的MuZero , 用在多个游戏上的“超人”表现证明了卓越的规划能力 , 也象征着DeepMind又一在强化学习和通用算法方面的重大进步 。
它的前辈AlphaZero也已投身于化学、量子物理学等领域 , 切身实地地为人类科学家们解决一系列复杂问题 。 在未来 , MuZero是否可以继承“家业” , 应对机器人、工业制造、未知“游戏规则”的现实问题所带来的挑战 , 我们拭目以待 。
【通用版AlphaGo登《Nature》!最强AI棋手,不懂规则也能精通游戏】来源:DeepMind
通用版AlphaGo登《Nature》!最强AI棋手,不懂规则也能精通游戏文章插图