下一代 AlphaGo,裸考也能拿满分
来源:IT之家
Google 母公司 Alphabet 旗下的 DeepMind , 在这一个月里大动作频出 。
先是在月初推出了蛋白质结构预测 AI —— AlphaFold 2 , 这个 AI 在 CASP 竞赛中拔得头筹 , 解决了困扰了学界 50 年的难题:生物学家 Andrei Lupas 本人花了十年时间 , 用尽各种实验方法也没能弄清楚一种蛋白质折叠后的形状 , 但借助 AlphaFold 2 后 , 他在半个小时内就得到了答案 。
接着 , 在月底 , DeepMind 在《自然》杂志上发布论文介绍「进阶版 AlphaGo」—— MuZero 。 简单来说 , MuZero 更「通用」了 , 它精通国际象棋、围棋、将棋 , 还能在数十款 Atari 游戏上全面超越过去的 AI 算法和人类 。 但更具革命意义的是 , MuZero 不像它的前辈们 , 它在下棋和游戏前完全不知道游戏规则 , 完全是通过自己的试验和摸索 , 洞悉棋局和游戏的规则 , 形成自己的决策 。 换句话说 , AI 会自己「动脑子」了 。
MuZero 就像是 Netflix 热剧《女王的棋局》里的贝丝 · 哈蒙 , 在完全不知国际象棋规则的情况下 , 凭借几次观察就把棋盘「画」在自己的心里 , 并通过不断复盘棋局强化自己的直觉 , 最终所向披靡 。
不知道规则 , 怎么赢棋?
2016 年 , AlphaGo 横空出世 , 以 4:1 击败韩国顶级棋手李世乭 , 并在 2017 年的乌镇围棋峰会上击败了世界第一棋手柯洁 。 中国围棋协会甚至当即授予 AlphaGo 职业围棋九段的称号 。
AlphaGo 依赖的还是 DeepMind 输入的专家棋法数据集 , 然后它的继任者 AlphaGo Zero 开始摆脱对「人类数据」的依赖 , 开始通过多次自我对弈积累所需数据 。 2018 年底问世的 AlphaZero 更是在前两者的基础上迭代 , 除了围棋 , 它还学会了将棋和国际象棋 。 让人叹为观止的是 , 从第一次见到棋盘 , 到成为世界级棋类大师 , AlphaZero 只用了 24 小时 。
「但你不能像下棋一样 , 只顾着往前看 。 你必须学习这个世界如何运作 。 」DeepMind 的首席研究科学家 David Silver 告诉《连线》 , 按照这个思路 , 他们决定不提前告诉 AI 该怎么赢了 , 「这是我们第一次打造这种系统」 。
上面提到的「Alpha」家族 , 最早需要「人类数据」、「领域知识」和「游戏规则」 , 至少也还需依赖「游戏规则」 。 而刚面世的 MuZero 则没有这些知识储备 , 就像是下棋被蒙着眼 , 玩游戏背着手 。
文章插图
「Alpha」家族至少也还需依赖「游戏规则」 , 而刚面世的 MuZero 则没有任何知识储备|DeepMind
既然 MuZero 连怎么赢棋都不知道 , 那它又是如何学习世界运作原理的呢?先以 AlphaZero 为例 , 由于它已经知晓棋局的规则 , 所以它知道一个动作后的下一个棋步是什么样的 , 运用深度学习中的「蒙特卡洛树搜索」(MCTS)就能评估不同的下棋可能性 , 并从中选出最优的动作 。 在这个过程中 , AlphaZero 只需要利用「预测网络」这一神经网络 。
而 MuZero 不知道现有的规则 , 那么只能从零开始构建一个内部模型 , 形成自己对棋局的理解 。
首先 , MuZero 会利用「表征网络」将自己观察到的棋步收集起来 , 转化为专属于自己的知识;
接着 , 利用「预测网络」形成策略(即最好的「下一步」是什么) , 判断价值(即当前决策「有多好」);
最后 , 借助「动态网络」判断「上一步有多好」 , 回收此前做出的最佳棋步 , 不断完善自己的内部模型 。
也就是说 , MuZero 并没有具体的「行事准则」 , 它就像是一个小孩 , 在有了一定思考能力的基础上 , 正在不断完善自己的行事准则 。 在此之前 , 「AlphaGo」虽能轻松击败人类 , 但也只限于围棋等专精领域 , 却无法「触类旁通」 , 每遇到新的游戏都需要更改框架 , 重新学习 。 而掌握了「思考方式」的 MuZero 显然能做得更多了 , 也就是 , 更通用了 。
「知道雨伞能让人不被淋湿 , 比能对雨滴建模更有用 。 」DeepMind 用这句话表示 , 对 AI 来说 , 它们会的本领看起来越笨 , 越有实际意义 。
在游戏方面 , 以研究 AI 打扑克出名的 FAIR 研究科学家 Noam Brown 这样评价 MuZero:「当前人们对游戏 AI 的主要批评是模型不能对现实世界中相互作用进行准确建模 。 MuZero 优雅而令人信服地克服了这个问题(适用于完美信息游戏) 。 我认为 , 这是可以与 AlphaGo 和 AlphaZero 相提并论的重大突破!」
这个会思考的 AI , 能做什么?
DeepMind 研究表示 , MuZero 在不具备任何底层动态知识的情况下 , 通过结合 MCTS 和学得模型 , 在各种棋类种的精确规划任务中可以匹敌 AlphaZero , 甚至超过了提前得知规则的围棋版 AlphaZero 。
- 革命|MicroLED和QD-OLED都有了,三星下一代显示技术会“忽视”激光显示吗
- 笔记本|明年下一代电脑准备涨价??
- 三星|三星公布其新的下一代AR游乐场Dreamground
- 小米科技|高通骁龙 8 移动平台发布,下一代 Android 旗舰有「芯」了
- iphone8|iPhone8这个钉子户还能用几年?下一代谁可以接替?
- 高通|联想最近风头很紧,但不妨碍首发高通下一代旗舰处理器
- 海信|下一代安卓机皇外观曝光,摄像模组像菜刀
- 服务器|JetBrains 发布全新轻量编辑器 Fleet,号称“下一代 IDE”
- 诺基亚105|新品刚刚现货不久,下一代就开始曝光?去刘海值得等吗?
- 社交媒体|下一代社交产品应该如何构建?