通用版AlphaGo登《Nature》！最强AI棋手，不懂规则也能精通游戏( 二 ) 智东西（公众号：zhidxcom）编译|子佩

文章插图
MuZero通过模拟下棋走向训练神经网络。
而每一步棋对于整体棋局的贡献都会被累加，成为本次棋局最后的奖励。
文章插图
策略函数P得到每一步预测下法，价值函数V得到每一步的奖励。
出了减少建模工作量外，这种方法的另一个主要优点就是可以不断复盘，而不需要得到外界的新数据。这样的优势也很明显，在Atari的测试中，名为MuZero Reanalyze的变体可以利用90％的时间使用学习过的模型进行重新规划，找到更优策略。
二、MuZero强在哪？追平前辈，拓宽Atari游戏战场MuZero模型分别自学了围棋、国际象棋、日本将棋以及Atari游戏，前三者用来评估模型在规划问题上的表现， Atari则用来评估模型面对视觉游戏时的表现。
文章插图
MuZero分别在国际象棋、日本将棋、围棋和Atari游戏训练中的评估结果。横坐标表示训练步骤数量，纵坐标表示 Elo评分。黄色线代表AlphaZero（在Atari游戏中代表人类表现），蓝色线代表MuZero 。
在围棋、国际象棋和日本将棋中， MuZero不仅在多训练步骤的情况下达到甚至超过了“前辈”AlphaZero的水平，在Atari游戏中， MuZero也表现突出。
文章插图
MuZero在Atari游戏中的性能。所有得分均根据人类测试的性能进行了归一化，最佳结果以粗体显示。
为了进一步评估MuZero模型的精确规划能力， DeepMind的研究人员还进行了围棋中经典的高精度规划挑战，即指下一步就判断胜负。
为了证实更多的训练时间能使MuZero模型更强大， DeepMind进行了如下面左图实验，当每一步的判断时间从0.1秒延长到50秒，评价玩家技能的Elo指标能增加1000 ，相当于业余棋手和最强职业棋手之间的区别。
而在右图的Atari游戏Ms Pac-Man（吃豆小姐）的测试中，也能很明显地看出训练时长越长时，模型表现越好。
文章插图
左图：随着步骤判断时间增加，围棋Elo指标上涨；右图：训练时长越长，模型表现越好
结语：出身于游戏，期待更多应用基于环境要素建模的MuZero ，用在多个游戏上的“超人”表现证明了卓越的规划能力，也象征着DeepMind又一在强化学习和通用算法方面的重大进步。
它的前辈AlphaZero也已投身于化学、量子物理学等领域，切身实地地为人类科学家们解决一系列复杂问题。在未来， MuZero是否可以继承“家业” ，应对机器人、工业制造、未知“游戏规则”的现实问题所带来的挑战，我们拭目以待。
【通用版AlphaGo登《Nature》！最强AI棋手，不懂规则也能精通游戏】来源：DeepMind
文章插图