下一代 AlphaGo，裸考也能拿满分( 二 ) 来源：IT之家Google母公司Alphabet旗下

「知道雨伞能让人不被淋湿，比能对雨滴建模更有用。」DeepMind 用这句话表示，对 AI 来说，它们会的本领看起来越笨，越有实际意义。
在游戏方面，以研究 AI 打扑克出名的 FAIR 研究科学家 Noam Brown 这样评价 MuZero：「当前人们对游戏 AI 的主要批评是模型不能对现实世界中相互作用进行准确建模。 MuZero 优雅而令人信服地克服了这个问题（适用于完美信息游戏）。我认为，这是可以与 AlphaGo 和 AlphaZero 相提并论的重大突破！」
这个会思考的 AI ，能做什么？
DeepMind 研究表示， MuZero 在不具备任何底层动态知识的情况下，通过结合 MCTS 和学得模型，在各种棋类种的精确规划任务中可以匹敌 AlphaZero ，甚至超过了提前得知规则的围棋版 AlphaZero 。
在实验中，只要为 MuZero 延长每次行为的时间，它的表现就会变得更好。随着将每次行动的时间从十分之一秒增加到 50 秒， MuZero 的能力会增加 1000 Elo（衡量玩家的相对技能），这基本相当于熟练的业余玩家和最强的职业玩家之间的区别。
开始自我思考的 MuZero 就像人一样。现实世界混沌、复杂，人们也没有具体的行事手册，只能摸着石头过河，慢慢形成自己的规划能力，进而制定下一步该怎么做的策略。
那么， MuZero 能做什么？
《连线》采访人员提到了在生化界做了件「大实事」的蛋白质结构预测 AI ，接着问起了 MuZero 的实用价值。 David Silver 表示， MuZero 已经投入实际使用，用于寻找一种新的视频编码方式，从而完成视频压缩。考虑到大量不同的视频格式和众多的压缩模式，能节省 5% 的比特已经是极具挑战的任务。「互联网上的数据大部分是视频，那么如果可以更有效地压缩视频，则可以节省大量资金。」由于 Google 拥有世界上最大的视频共享平台 YouTube ，因此他们很可能将 MuZero 其应用到该平台上。
文章插图
David Silver 对它的造物有足够的自信｜WIRED
David Silver 想得更远，「一个真正强大的系统，它能看到所有你看到的东西，它有和你一样的感官，它能够帮助你实现目标。另外一个变革性的，从长远来看，（MuZero 的『强化学习』思路）是可以提供个性化的医疗解决方案的东西。有一些隐私和伦理问题必须解决，但它会有巨大的价值，它会改变医学的面貌和人们的生活质量。」
目前，「Alpha 家族」这种规划算法也已经在物流、化学合成等诸多现实世界领域中产生影响。然而，这些规划算法都依赖于环境的动态变化，如游戏规则或精确的模拟器，导致它们在机器人学、工业控制、智能助理等领域中的应用受到限制。
而不再「循规蹈矩」的 MuZero ，先摸索规则、建立内部模型再精通的思路，显然具有更强的可塑性。会自己思考的 AI ，离通用 AI 会更近一些。
「我不想给它设定一个时间尺度，但我想说，人类能实现的一切，我最终认为机器都能实现。大脑完成的只是一个计算过程，我不认为那里有什么神奇的东西。」David Silver 对它的造物有足够的自信。
【下一代 AlphaGo，裸考也能拿满分】如果说 AlphaGo 确立了 AI 的「围棋霸权」，那懂得自己思考的 MuZero ，可能会在更多领域确立「霸权」。