技术编程最强多层感知机?谷歌科学家用 β( 二 )


研究者还用β-lasso训练了不同卷积核大小的ResNet18 , 发现对于全部实验数据集和卷积核大小 , β-lasso的性能均优于SGD 。
解耦深度、权重共享和局部连接
这项研究提出了两种全卷积网络d-conv和s-conv , 它们不仅在图像分类任务上性能良好 , 还可以根据相应卷积网络中的通道数量和输入图像大小实现预期的缩放 。
下图1展示了d-conv和s-conv的网络架构以及缩放情况:
技术编程最强多层感知机?谷歌科学家用 β
本文插图
下表1展示了d-conv、s-conv、它们的变体以及3-FC模型在CIFAR-10、CIFAR-100和SVHN三个数据集上的测试准确率结果:
技术编程最强多层感知机?谷歌科学家用 β
本文插图
由上表可以得出以下四项结论:
局部性(locality)非常重要 。 对于深层和浅层架构来说 , 在三个数据集上 , 局部连接网络和对应全连接网络之间的差距要比卷积和局部连接网络的差距大得多 。 这表明 , 卷积的主要优势来自于局部连接 。
(大多数情况下 , )浅层架构最终会赶上深层架构 。 虽然深层结构训练更长时间似乎并不能提升性能 , 但在所有数据集上 , 增加浅层架构的训练时长可以显著地提升性能 。 因此 , 在训练迭代次数达到4000时 , 深层和浅层架构之间的差距明显缩小 。
在没有权重共享的情况下 , 深层结构的优势会消失 。 s-fc在所有实验中均优于d-fc 。 并且 , 当训练迭代次数达到4000时 , d-local和s-local相对于彼此并没有表现出明显的优势 。
全连接网络的结构非常重要 。 s-fc在所有实验中均大幅领先3-fc和d-fc 。 更有趣的是 , s-fc与3-fc具备相同的参数量和深度 , 但前者第一层的隐藏单元数量远多于后者 。
将MDL作为指导原则
最小描述长度(MDL)原则是将奥卡姆剃刀形式化后的一种结果 。 其想法是 , 在给予假说集合的情况下 , 能产生最多资料压缩效果的那个假说是最好的 。 它于1978年由JormaRissanen提出 。
在信息论和计算机学习理论中 , 最小描述长度原则是个重要概念 。 最小描述长度原理就是要求选择总描述长度最小的模型 。
该研究则将MDL看作解释不同架构性能差异的方式 , 以及找到泛化性能优异模型的指导原则 。
使用MDL后 , 稀疏性对泛化性能的影响有所增加 , 但是权重共享机制仅在结构简单的情况下有效 。
下图2展示了不同架构的性能:
技术编程最强多层感知机?谷歌科学家用 β
本文插图
新算法β-lasso , 实现从头学习局部连接
受MDL的启发 , 该研究提出了一种新型训练算法β-lasso , 它是lasso算法的简单变体 , 具备更强势的软阈值 , 可以找到具备少量参数的架构 , 从而实现小的描述长度 。 此外 , β-lasso对图像没有偏见 。
以下是β-lasso的算法:
技术编程最强多层感知机?谷歌科学家用 β
本文插图
训练全连接网络
下表2展示了在训练全连接网络时 , 用β-lasso训练的s-fc与当前最优方法的性能对比情况 。 结果表明即使与蒸馏或预训练等复杂方法进行对比时 , β-lasso的性能也有显著提升 。
β-lasso显著提升了MLP在CIFAR-10、CIFAR-100和SVHN数据集上的SOTA结果 。
技术编程最强多层感知机?谷歌科学家用 β
本文插图
此外 , 为了观察β-lasso能否成功学习像s-local一样稀疏的架构 , 研究者分别度量了每一层中非零权重的数量 , 结果如下图3所示:
该研究还进一步对学得滤波器进行了可视化 , 发现β-lasso确实能够学习局部连接 , 而且还能在局部邻域中进行更稀疏地采样 , 从而在保持参数数量较少的情况下增加感受野 。