新智元MIT科学家用AI设计“好奇心”算法:基于元学习探索奇妙世界( 二 )


即使用一台快速的计算机 , 对所有的算法进行测试都要花费数十年的时间 。 因此 , 研究人员首先排除了那些从代码结构就预测出其性能较差的算法 , 来缩小范围 。
然后 , 他们在一项基本的网格坐标导航任务上测试了那些最看好的算法 , 网格导航任务需要大量的探索行为 , 但计算量最少 。 如果某项算法表现良好 , 那么它的表现就成为新的基准 , 从而淘汰更多候选人 。
研究人员用四台计算机搜索了10多个小时 , 以找到最佳算法 。 结果发现 , 超过99%都是垃圾算法 , 但大约有一百种是优胜的高性能算法 。 值得注意的是 , 前16名优胜的算法既新颖又好用 , 在其他虚拟任务(从登上月球车 , 到举起机械臂 , 再到移动类似蚂蚁的机器人)的性能上 , 都比人类设计的算法要好 , 至少实力相当 。
所有16种算法都产生了两个基本的探索功能 。
智能体会在两种情况下受到奖励:
第一种 , 智能体会因为访问新的地方而获得奖励 , 因为在那里他们有更大的机会采取新的行动 。
第二种 , 智能体也会因为访问新地方而获得奖励 , 但以一种更细微的方式: 其中一个神经网络预测未来的状态 , 而另一个回忆过去 , 然后试图通过在未来回忆过去来预测现在 。 如果这个预测结果是错误的 , 那么它会奖励自己 , 因为这是一个信号 , 表明它发现了以前不知道的东西 。 第二种算法是如此违反直觉 , 以至于研究人员花了很长时间才弄明白 。
「我们的偏见常常使我们无法尝试非常创新的想法 , 」Alet说 。 「但是计算机不会 。 他们会多多尝试 , 看看怎么样 , 有时反而会得到意想不到的出色结果 。 」
越来越多的研究人员转向机器学习 , 来设计更好的机器学习算法 , 这其中就包括AutoML 。 Google的Le和他的同事们最近推出了一款新的算法发现工具 , 名为Auto-ML Zero 。(它的名字是谷歌的 AutoML 软件和谷歌 DeepMind 的 Alpha Zero的结合 , 前者为给定的应用程序定制深层网络架构 , 后者可以通过自己玩数百万个游戏 , 来学习玩不同的棋盘游戏 。 )
新智元MIT科学家用AI设计“好奇心”算法:基于元学习探索奇妙世界
本文插图
他们的方法是在大量的算法当中搜索原始运算更简单的算法 。 但是 , 他们的目标不是发现探索策略 , 而是发现能够对图像进行分类的算法 。 两项研究都表明 , 人类有能力使用机器学习方法来创建新颖的 , 高性能的机器学习算法 。
「生成的算法可以被人类读取和解读 , 但是要真正理解这些代码 , 我们必须对每个变量和操作进行推理 , 以及它们如何随着时间演变 , 」研究合著者 , 麻省理工学院研究生Martin Schneider说 。 「设计算法和工作流程 , 利用计算机来评估大量算法 , 是一个有趣的挑战 。 同时我们也要来解释和改进这些想法 , 」
参考链接:
【新智元MIT科学家用AI设计“好奇心”算法:基于元学习探索奇妙世界】https://www.csail.mit.edu/news/automating-search-entirely-new-curiosity-algorithms