下一代 AlphaGo,裸考也能拿满分
来源:IT之家
Google 母公司 Alphabet 旗下的 DeepMind , 在这一个月里大动作频出 。
先是在月初推出了蛋白质结构预测 AI —— AlphaFold 2 , 这个 AI 在 CASP 竞赛中拔得头筹 , 解决了困扰了学界 50 年的难题:生物学家 Andrei Lupas 本人花了十年时间 , 用尽各种实验方法也没能弄清楚一种蛋白质折叠后的形状 , 但借助 AlphaFold 2 后 , 他在半个小时内就得到了答案 。
接着 , 在月底 , DeepMind 在《自然》杂志上发布论文介绍「进阶版 AlphaGo」—— MuZero 。 简单来说 , MuZero 更「通用」了 , 它精通国际象棋、围棋、将棋 , 还能在数十款 Atari 游戏上全面超越过去的 AI 算法和人类 。 但更具革命意义的是 , MuZero 不像它的前辈们 , 它在下棋和游戏前完全不知道游戏规则 , 完全是通过自己的试验和摸索 , 洞悉棋局和游戏的规则 , 形成自己的决策 。 换句话说 , AI 会自己「动脑子」了 。
MuZero 就像是 Netflix 热剧《女王的棋局》里的贝丝 · 哈蒙 , 在完全不知国际象棋规则的情况下 , 凭借几次观察就把棋盘「画」在自己的心里 , 并通过不断复盘棋局强化自己的直觉 , 最终所向披靡 。
不知道规则 , 怎么赢棋?
2016 年 , AlphaGo 横空出世 , 以 4:1 击败韩国顶级棋手李世乭 , 并在 2017 年的乌镇围棋峰会上击败了世界第一棋手柯洁 。 中国围棋协会甚至当即授予 AlphaGo 职业围棋九段的称号 。
AlphaGo 依赖的还是 DeepMind 输入的专家棋法数据集 , 然后它的继任者 AlphaGo Zero 开始摆脱对「人类数据」的依赖 , 开始通过多次自我对弈积累所需数据 。 2018 年底问世的 AlphaZero 更是在前两者的基础上迭代 , 除了围棋 , 它还学会了将棋和国际象棋 。 让人叹为观止的是 , 从第一次见到棋盘 , 到成为世界级棋类大师 , AlphaZero 只用了 24 小时 。
「但你不能像下棋一样 , 只顾着往前看 。 你必须学习这个世界如何运作 。 」DeepMind 的首席研究科学家 David Silver 告诉《连线》 , 按照这个思路 , 他们决定不提前告诉 AI 该怎么赢了 , 「这是我们第一次打造这种系统」 。
上面提到的「Alpha」家族 , 最早需要「人类数据」、「领域知识」和「游戏规则」 , 至少也还需依赖「游戏规则」 。 而刚面世的 MuZero 则没有这些知识储备 , 就像是下棋被蒙着眼 , 玩游戏背着手 。
文章插图
「Alpha」家族至少也还需依赖「游戏规则」 , 而刚面世的 MuZero 则没有任何知识储备|DeepMind
既然 MuZero 连怎么赢棋都不知道 , 那它又是如何学习世界运作原理的呢?先以 AlphaZero 为例 , 由于它已经知晓棋局的规则 , 所以它知道一个动作后的下一个棋步是什么样的 , 运用深度学习中的「蒙特卡洛树搜索」(MCTS)就能评估不同的下棋可能性 , 并从中选出最优的动作 。 在这个过程中 , AlphaZero 只需要利用「预测网络」这一神经网络 。
而 MuZero 不知道现有的规则 , 那么只能从零开始构建一个内部模型 , 形成自己对棋局的理解 。
首先 , MuZero 会利用「表征网络」将自己观察到的棋步收集起来 , 转化为专属于自己的知识;
接着 , 利用「预测网络」形成策略(即最好的「下一步」是什么) , 判断价值(即当前决策「有多好」);
最后 , 借助「动态网络」判断「上一步有多好」 , 回收此前做出的最佳棋步 , 不断完善自己的内部模型 。
也就是说 , MuZero 并没有具体的「行事准则」 , 它就像是一个小孩 , 在有了一定思考能力的基础上 , 正在不断完善自己的行事准则 。 在此之前 , 「AlphaGo」虽能轻松击败人类 , 但也只限于围棋等专精领域 , 却无法「触类旁通」 , 每遇到新的游戏都需要更改框架 , 重新学习 。 而掌握了「思考方式」的 MuZero 显然能做得更多了 , 也就是 , 更通用了 。
- 联想正开发下一代ThinkReality智能眼镜
- 日媒:日本研发下一代的下一代电池 完全固态弃用锂采用更容易取得材料纳
- 18432个流处理器 网传下一代N卡性能强大
- 飞腾宣布下一代服务器腾云CPU:最多128核心、16通道DDR5
- 摘取“超算下一顶皇冠”,预计下一代超级计算机2022年将落户深圳
- 你的下一代主机,将能“热炸鸡”?
- 通用版AlphaGo登《Nature》!最强AI棋手,不懂规则也能精通游戏
- IBM帮助企业为下一代加密做好准备
- 5G如何赋能下一代教育?中国移动参加海南省第二届人工智能教育峰会时这样说
- 下一代人工智能:无监督学习、联合学习、Transformer