技术编程最强多层感知机?谷歌科学家用 β


机器之心报道
如何从头开始学习卷积?谷歌高级研究科学家BehnamNeyshabur使用最小描述长度(MDL)作为指导原则 , 提出了LASSO算法的一个简单变体β-LASSO 。 将β-LASSO应用到多层感知机(MLP)后 , MLP在CIFAR-10、CIFAR-100和SVHN数据集上的SOTA结果得到显著提升 。
多层感知机(MLP)在CIFAR-10数据集上的最高准确率是多少?
65%?那是之前 。
谷歌新研究用LASSO算法的变体β-LASSO武装MLP , 将其在CIFAR-10数据集上的准确率提升到85% 。
这项研究突破性地解决了从头开始学习卷积的问题 , 并大大提高了MLP的性能 。
技术编程最强多层感知机?谷歌科学家用 β
本文插图
这篇刚刚上传到arxiv的论文 , 在国外社交网络上引起了大家的广泛关注与讨论 。
我们首先来看这篇论文的具体内容 。
技术编程最强多层感知机?谷歌科学家用 β
本文插图
论文地址:https://arxiv.org/pdf/2007.13657.pdf
卷积是计算机视觉架构中最重要的组件 。 随着机器学习趋向于减少专家偏见(expertbias)以及从数据中学习 , 那么很自然地 , 接下来的一步应该是从头开始学习类似卷积的结构 。 然而 , 事实证明这并不容易 。 例如 , 当前的SOTA架构搜索算法使用卷积作为一种已有的模块 , 而不是从数据中从头开始学习 。
为了理解引起卷积的归纳偏置 , 研究者使用最小描述长度(MDL)作为指导原则 , 发现在某些情况下 , 它确实可以说明架构的性能 。
为了用小的描述长度找出架构 , 研究者提出了LASSO算法的一个简单变体β-LASSO 。 将其应用于全连接网络进行图像分类任务时 , 它可以学习具备局部连接的架构 , 并且在CIFAR-10数据集上达到了SOTA准确率(85.19%) , 在CIFAR-100数据集上达到了59.56%的准确率 , 在SVHN上实现了94.07%的准确率 , 缩小了全连接网络和卷积网络之间的差距 。
该研究的主要贡献包括:
提出了具备研究卷积所需特性的浅层(s-conv)和深层(d-conv)全卷积网络 。 通过对s-conv和d-conv以及它们的局部连接和全连接版本进行系统性实验 , 研究者发现了深度、局部连接和共享权重的作用 。
局部连接似乎对性能的影响最大 。
深度的优势是提升内存和计算效率 。 因此 , 对具备更多参数的浅层架构进行长时间训练可以弥补深度不够造成的大部分性能损失 。
如果没有共享权重 , 深度的优势会进一步减少 。
此外 , 研究者以最小描述长度作为指导原则 , 来研究哪些架构的泛化能力更强:
研究表明MDL受参数数量的限制 , 研究者用实验表明 , 用更少的参数拟合训练集的架构一定程度上比过参数化架构的泛化能力更强 。
该研究证明用于架构搜索的基于MDL的泛化约束(MDL-basedgeneralizationboundforarchitecturessearch , 表明找到架构的稀疏性)对泛化能力有很大的影响 。 但是 , 只有在结构简单时 , 共享权重才有效 。
受MDL的启发 , 研究者提出了一种新的训练算法β-lasso 。 它是lasso的一种变体 , 比lasso具备更强的软阈值 , 以找出参数量少的架构 , 也就是具有小的描述长度的架构 。 以下是关于β-lasso的实验发现:
使用β-lasso算法在CIFAR10、CIFAR-100、SVHN上训练的全连接网络 , 均实现SOTA性能 。 值得一提的是 , 与卷积网络不同 , 这些结果不受置换像素(permutingpixel)的影响 。
该研究表明 , 使用β-lasso算法学得的网络比其局部连接版本使用的参数更少 。 通过可视化滤波器 , 研究者发现β-lasso算法确实学习了局部连接 。 它还学会了在局部邻域中更稀疏地采样 , 以增加感受野(receptivefield) , 同时保证参数数量较少 。