按关键词阅读:
文章插图
长期以来,探寻神经网络泛化性能的量化方法一直是深度学习研究的核心目标。
尽管深度学习在许多任务上取得了巨大的成功,但是从根本上说,我们还无法很好地解释神经网络学习的函数为什么可以很好地泛化到未曾见过的数据上。
从传统的统计学习理论的直觉出发,过参数化的神经网络难以获得如此好的泛化效果,我们也很难得到有用的泛化界。
因此,研究人员试图寻找一种新的方法来解释神经网络的泛化能力。
近日,加州大学伯克利分校的研究者于 Arxiv 上在线发表了一篇题为「NEURAL TANGENT KERNEL EIGENVALUES ACCURATELY PREDICT GENERALIZATION」的论文,指出「神经正切核」的特征值可以准确地预测神经网络的泛化性能。
「神经正切核」是近年来神经网络优化理论研究的热点概念,研究表明:通过梯度下降以无穷小的步长(也称为梯度流)训练的经过适当随机初始化的足够宽的神经网络,等效于使用称为神经正切核(NTK)的核回归预测器。
在本文中,作者指出:通过研究神经网络的神经正切核的特征系统,我们可以预测该神经网络在学习任意函数时的泛化性能。具体而言,作者提出的理论不仅可以准确地预测测试的均方误差,还可以预测学习到的函数的所有一阶和二阶统计量。
此外,通过使用量化给定目标函数的「可学习性」的度量标准,本文作者提出了一种加强版的「没有免费午餐定理」,该定理指出,对于宽的神经网络而言:提升其对于给定目标函数的泛化性能,必定会弱化其对于正交函数的泛化性能。
最后,作者将本文提出的理论与宽度有限(宽度仅为 20)的网络进行对比,发现本文提出的理论在这些宽度较小的网络中也成立,这表明它不仅适用于标准的 NTK,事实上也能正确预测真实神经网络的泛化性能。
文章插图
论文地址:https://arxiv.org/pdf/2110.03922.pdf
稿源:(雷锋网)
【傻大方】网址:http://www.shadafang.com/c/1115960cH021.html
标题:伯克利|UC伯克利发现「没有免费午餐定理」加强版:每个神经网络,都是一个高维向量