新智元MIT科学家用AI设计“好奇心”算法:基于元学习探索奇妙世界( 二 )
即使用一台快速的计算机 , 对所有的算法进行测试都要花费数十年的时间 。 因此 , 研究人员首先排除了那些从代码结构就预测出其性能较差的算法 , 来缩小范围 。
然后 , 他们在一项基本的网格坐标导航任务上测试了那些最看好的算法 , 网格导航任务需要大量的探索行为 , 但计算量最少 。 如果某项算法表现良好 , 那么它的表现就成为新的基准 , 从而淘汰更多候选人 。
研究人员用四台计算机搜索了10多个小时 , 以找到最佳算法 。 结果发现 , 超过99%都是垃圾算法 , 但大约有一百种是优胜的高性能算法 。 值得注意的是 , 前16名优胜的算法既新颖又好用 , 在其他虚拟任务(从登上月球车 , 到举起机械臂 , 再到移动类似蚂蚁的机器人)的性能上 , 都比人类设计的算法要好 , 至少实力相当 。
所有16种算法都产生了两个基本的探索功能 。
智能体会在两种情况下受到奖励:
第一种 , 智能体会因为访问新的地方而获得奖励 , 因为在那里他们有更大的机会采取新的行动 。
第二种 , 智能体也会因为访问新地方而获得奖励 , 但以一种更细微的方式: 其中一个神经网络预测未来的状态 , 而另一个回忆过去 , 然后试图通过在未来回忆过去来预测现在 。 如果这个预测结果是错误的 , 那么它会奖励自己 , 因为这是一个信号 , 表明它发现了以前不知道的东西 。 第二种算法是如此违反直觉 , 以至于研究人员花了很长时间才弄明白 。
「我们的偏见常常使我们无法尝试非常创新的想法 , 」Alet说 。 「但是计算机不会 。 他们会多多尝试 , 看看怎么样 , 有时反而会得到意想不到的出色结果 。 」
越来越多的研究人员转向机器学习 , 来设计更好的机器学习算法 , 这其中就包括AutoML 。 Google的Le和他的同事们最近推出了一款新的算法发现工具 , 名为Auto-ML Zero 。(它的名字是谷歌的 AutoML 软件和谷歌 DeepMind 的 Alpha Zero的结合 , 前者为给定的应用程序定制深层网络架构 , 后者可以通过自己玩数百万个游戏 , 来学习玩不同的棋盘游戏 。 )
本文插图
他们的方法是在大量的算法当中搜索原始运算更简单的算法 。 但是 , 他们的目标不是发现探索策略 , 而是发现能够对图像进行分类的算法 。 两项研究都表明 , 人类有能力使用机器学习方法来创建新颖的 , 高性能的机器学习算法 。
「生成的算法可以被人类读取和解读 , 但是要真正理解这些代码 , 我们必须对每个变量和操作进行推理 , 以及它们如何随着时间演变 , 」研究合著者 , 麻省理工学院研究生Martin Schneider说 。 「设计算法和工作流程 , 利用计算机来评估大量算法 , 是一个有趣的挑战 。 同时我们也要来解释和改进这些想法 , 」
参考链接:
【新智元MIT科学家用AI设计“好奇心”算法:基于元学习探索奇妙世界】https://www.csail.mit.edu/news/automating-search-entirely-new-curiosity-algorithms
- 驱动之家科学家在地球拍下木星完整红外照片:画面难得一见
- 海南师范大学海南省科学技术厅谢京厅长一行赴我校调研指导重点实验室建设工作
- 高压锅高压锅这种比较“科学”的厨具是怎么被发明出来的?
- 魅力科学君太阳系的噩梦或许真的存在,新发现的黑洞已给出不好的消息
- 爵士浩南2020年5月装机配置推荐,4000元科学装机,性价比巨高
- 爵士浩南4000元科学装机,性价比巨高,2020年5月装机配置推荐
- #佩戴#山东发布常态化疫情防控公众科学佩戴口罩指引 六种情形应佩戴口罩
- 「刘绍喜」成交量同样会骗人,需要科学地理解与运用
- 科学技术宅苹果12P强势来袭!,1200万像素四摄镜头+120Hz屏幕
- 科学探索007地球有多厚?将地球比作一个蛋,你就会明白地球各个部分的厚度了