机器之心从800个GPU训练几十天到单个GPU几小时,看神经架构搜索如何进化( 三 )


如果移除控制器 , 并将边更改为表示所有可能的操作 , 则搜索空间可微分 。 在这个密集的架构中 , 所有可能的操作都在每个节点上以加权和的形式组合起来 。 加权和是可学习参数 , 使得网络能够缩放不同的操作 。 这意味着可以缩小不利于性能的操作 , 扩大「良好」的操作 。 训练较大的网络后 , 剩下要做的就是观察权重并选择对应较大权重的操作 。
通过对搜索空间求微分和训练更大的网络(通常称为「超级网络」) , 我们不再需要训练多个架构 , 并且可以使用标准梯度下降优化器 。 NAS 的可微性为未来发展开辟了许多可能性 。 其中一个例子是 NAS 中的可微分采样 [9] , 由于每个前向传播和反向传播在搜索中需要使用的操作减少 , 因此该方法将搜索时间缩短到只要 4 个小时 。
结语
NAS 训练时间如何从多天缩短到几个小时的故事先到此为止吧 。 在这篇文章中 , 我试图概述驱动 NAS 发展的最重要想法 。 现在 , NAS 技术已经足够高效 , 任何有 GPU 的人都可以使用它 , 你还在等什么?
参考文献:
[1] https://arxiv.org/pdf/1807.11626.pdf
[2] Self Organizing Neural Networks for the Identification Problem (https://papers.nips.cc/paper/149-self-organizing-neural-networks-for-the-identification-problem.pdf)
[3] https://arxiv.org/pdf/1611.01578.pdf
[4] https://arxiv.org/pdf/1512.03385.pdf
[5] https://arxiv.org/pdf/1707.07012.pdf
[6] https://arxiv.org/pdf/1802.03268.pdf
[7] https://arxiv.org/pdf/1604.02201.pdf
[8] https://arxiv.org/pdf/1806.09055.pdf
[9] https://arxiv.org/pdf/1910.04465.pdf
原文链接:https://medium.com/peltarion/how-nas-was-improved-from-days-to-hours-in-search-time-a238c330cd49
本文为机器之心编译 , 转载请联系本公众号获得授权 。
------------------------------------------------