下一代 AlphaGo,裸考也能拿满分( 二 )


在实验中 , 只要为 MuZero 延长每次行为的时间 , 它的表现就会变得更好 。 随着将每次行动的时间从十分之一秒增加到 50 秒 , MuZero 的能力会增加 1000 Elo(衡量玩家的相对技能) , 这基本相当于熟练的业余玩家和最强的职业玩家之间的区别 。
开始自我思考的 MuZero 就像人一样 。 现实世界混沌、复杂 , 人们也没有具体的行事手册 , 只能摸着石头过河 , 慢慢形成自己的规划能力 , 进而制定下一步该怎么做的策略 。
那么 , MuZero 能做什么?
《连线》采访人员提到了在生化界做了件「大实事」的蛋白质结构预测 AI , 接着问起了 MuZero 的实用价值 。 David Silver 表示 , MuZero 已经投入实际使用 , 用于寻找一种新的视频编码方式 , 从而完成视频压缩 。 考虑到大量不同的视频格式和众多的压缩模式 , 能节省 5% 的比特已经是极具挑战的任务 。 「互联网上的数据大部分是视频 , 那么如果可以更有效地压缩视频 , 则可以节省大量资金 。 」由于 Google 拥有世界上最大的视频共享平台 YouTube , 因此他们很可能将 MuZero 其应用到该平台上 。
下一代 AlphaGo,裸考也能拿满分文章插图
David Silver 对它的造物有足够的自信|WIRED
David Silver 想得更远 , 「一个真正强大的系统 , 它能看到所有你看到的东西 , 它有和你一样的感官 , 它能够帮助你实现目标 。 另外一个变革性的 , 从长远来看 , (MuZero 的『强化学习』思路)是可以提供个性化的医疗解决方案的东西 。 有一些隐私和伦理问题必须解决 , 但它会有巨大的价值 , 它会改变医学的面貌和人们的生活质量 。 」
目前 , 「Alpha 家族」这种规划算法也已经在物流、化学合成等诸多现实世界领域中产生影响 。 然而 , 这些规划算法都依赖于环境的动态变化 , 如游戏规则或精确的模拟器 , 导致它们在机器人学、工业控制、智能助理等领域中的应用受到限制 。
而不再「循规蹈矩」的 MuZero , 先摸索规则、建立内部模型再精通的思路 , 显然具有更强的可塑性 。 会自己思考的 AI , 离通用 AI 会更近一些 。
「我不想给它设定一个时间尺度 , 但我想说 , 人类能实现的一切 , 我最终认为机器都能实现 。 大脑完成的只是一个计算过程 , 我不认为那里有什么神奇的东西 。 」David Silver 对它的造物有足够的自信 。
【下一代 AlphaGo,裸考也能拿满分】如果说 AlphaGo 确立了 AI 的「围棋霸权」 , 那懂得自己思考的 MuZero , 可能会在更多领域确立「霸权」 。