下一代 AlphaGo,裸考也能拿满分( 二 )


「知道雨伞能让人不被淋湿 , 比能对雨滴建模更有用 。 」DeepMind 用这句话表示 , 对 AI 来说 , 它们会的本领看起来越笨 , 越有实际意义 。
在游戏方面 , 以研究 AI 打扑克出名的 FAIR 研究科学家 Noam Brown 这样评价 MuZero:「当前人们对游戏 AI 的主要批评是模型不能对现实世界中相互作用进行准确建模 。 MuZero 优雅而令人信服地克服了这个问题(适用于完美信息游戏) 。 我认为 , 这是可以与 AlphaGo 和 AlphaZero 相提并论的重大突破!」
这个会思考的 AI , 能做什么?
DeepMind 研究表示 , MuZero 在不具备任何底层动态知识的情况下 , 通过结合 MCTS 和学得模型 , 在各种棋类种的精确规划任务中可以匹敌 AlphaZero , 甚至超过了提前得知规则的围棋版 AlphaZero 。
在实验中 , 只要为 MuZero 延长每次行为的时间 , 它的表现就会变得更好 。 随着将每次行动的时间从十分之一秒增加到 50 秒 , MuZero 的能力会增加 1000 Elo(衡量玩家的相对技能) , 这基本相当于熟练的业余玩家和最强的职业玩家之间的区别 。
开始自我思考的 MuZero 就像人一样 。 现实世界混沌、复杂 , 人们也没有具体的行事手册 , 只能摸着石头过河 , 慢慢形成自己的规划能力 , 进而制定下一步该怎么做的策略 。
那么 , MuZero 能做什么?
《连线》采访人员提到了在生化界做了件「大实事」的蛋白质结构预测 AI , 接着问起了 MuZero 的实用价值 。 David Silver 表示 , MuZero 已经投入实际使用 , 用于寻找一种新的视频编码方式 , 从而完成视频压缩 。 考虑到大量不同的视频格式和众多的压缩模式 , 能节省 5% 的比特已经是极具挑战的任务 。 「互联网上的数据大部分是视频 , 那么如果可以更有效地压缩视频 , 则可以节省大量资金 。 」由于 Google 拥有世界上最大的视频共享平台 YouTube , 因此他们很可能将 MuZero 其应用到该平台上 。
下一代 AlphaGo,裸考也能拿满分文章插图
David Silver 对它的造物有足够的自信|WIRED
David Silver 想得更远 , 「一个真正强大的系统 , 它能看到所有你看到的东西 , 它有和你一样的感官 , 它能够帮助你实现目标 。 另外一个变革性的 , 从长远来看 , (MuZero 的『强化学习』思路)是可以提供个性化的医疗解决方案的东西 。 有一些隐私和伦理问题必须解决 , 但它会有巨大的价值 , 它会改变医学的面貌和人们的生活质量 。 」
目前 , 「Alpha 家族」这种规划算法也已经在物流、化学合成等诸多现实世界领域中产生影响 。 然而 , 这些规划算法都依赖于环境的动态变化 , 如游戏规则或精确的模拟器 , 导致它们在机器人学、工业控制、智能助理等领域中的应用受到限制 。
而不再「循规蹈矩」的 MuZero , 先摸索规则、建立内部模型再精通的思路 , 显然具有更强的可塑性 。 会自己思考的 AI , 离通用 AI 会更近一些 。
「我不想给它设定一个时间尺度 , 但我想说 , 人类能实现的一切 , 我最终认为机器都能实现 。 大脑完成的只是一个计算过程 , 我不认为那里有什么神奇的东西 。 」David Silver 对它的造物有足够的自信 。
【下一代 AlphaGo,裸考也能拿满分】如果说 AlphaGo 确立了 AI 的「围棋霸权」 , 那懂得自己思考的 MuZero , 可能会在更多领域确立「霸权」 。