傻大方


首页 > 潮·科技 > >

伯克利|UC伯克利发现「没有免费午餐定理」加强版:每个神经网络,都是一个高维向量



按关键词阅读:

伯克利|UC伯克利发现「没有免费午餐定理」加强版:每个神经网络,都是一个高维向量
文章插图
经典的「没有免费午餐定理」表明:如果某种学习算法在某些方面比另一种学习算法更优,则肯定会在其它某些方面弱于另一种学习算法。
也就是说,对于任何一个学习问题,没有最优的算法,只有最合适的算法。
而在这项最新研究中,作者向我们揭示了这一现象背后的数学原理:每个神经网络,都是一个高维向量。
在高维向量空间中,不存在单调的大小比较。如果两个向量A、B是垂直的,则内积为零,通常也反映两者更加不相关,比如作用在物体运动方向的垂直方向的力就不做功。
类似地,如果两个神经网络对应的向量内积为零,则反映它们的相似程度更低。
在拟合第三个向量C,也就是通过数据进行训练和学习时,如果A和C内积更大,则表示A更容易学习C,也反映B更不容易学习C。
另一方面,当A通过训练变得更加接近C时,与C垂直的另一个神经网络D也会因此和A更加不相关,也就是A变得更加难以学习D。
此即本文提出的「没有免费午餐定理」加强版。
利用这个数学描述,我们就可以量化神经网络的泛化能力。
该研究主要基于宽神经网络,而表示神经网络的高维空间的每一个维度,都是由神经正切核的特征向量构成的。
神经正切核与宽神经网络的联系,在之前的文章中已有介绍,参见:
深度学习为何泛化的那么好?秘密或许隐藏在内核机中
同时,作者也指出,该发现在宽度较小的网络中也成立。
在高维空间中,神经网络泛化性的非单调数学关系一览无余。
作者 | Mr Bear、杏花
编辑 | 青暮
长期以来,探寻神经网络泛化性能的量化方法一直是深度学习研究的核心目标。
尽管深度学习在许多任务上取得了巨大的成功,但是从根本上说,我们还无法很好地解释神经网络学习的函数为什么可以很好地泛化到未曾见过的数据上。
从传统的统计学习理论的直觉出发,过参数化的神经网络难以获得如此好的泛化效果,我们也很难得到有用的泛化界。
因此,研究人员试图寻找一种新的方法来解释神经网络的泛化能力。
近日,加州大学伯克利分校的研究者于 Arxiv 上在线发表了一篇题为「NEURAL TANGENT KERNEL EIGENVALUES ACCURATELY PREDICT GENERALIZATION」的论文,指出「神经正切核」的特征值可以准确地预测神经网络的泛化性能。
「神经正切核」是近年来神经网络优化理论研究的热点概念,研究表明:通过梯度下降以无穷小的步长(也称为梯度流)训练的经过适当随机初始化的足够宽的神经网络,等效于使用称为神经正切核(NTK)的核回归预测器。
在本文中,作者指出:通过研究神经网络的神经正切核的特征系统,我们可以预测该神经网络在学习任意函数时的泛化性能。具体而言,作者提出的理论不仅可以准确地预测测试的均方误差,还可以预测学习到的函数的所有一阶和二阶统计量。
此外,通过使用量化给定目标函数的「可学习性」的度量标准,本文作者提出了一种加强版的「没有免费午餐定理」,该定理指出,对于宽的神经网络而言:提升其对于给定目标函数的泛化性能,必定会弱化其对于正交函数的泛化性能。
最后,作者将本文提出的理论与宽度有限(宽度仅为 20)的网络进行对比,发现本文提出的理论在这些宽度较小的网络中也成立,这表明它不仅适用于标准的 NTK,事实上也能正确预测真实神经网络的泛化性能。
伯克利|UC伯克利发现「没有免费午餐定理」加强版:每个神经网络,都是一个高维向量
文章插图

论文地址:https://arxiv.org/pdf/2110.03922.pdf

1

问题定义及研究背景
作者首先将上述问题形式化定义为:从第一性原理出发,对于特定的目标函数,我们是否高效地预测给定的神经网络架构利用有限的个训练样本学习到的函数的泛化性能?


稿源:(雷锋网)

【傻大方】网址:http://www.shadafang.com/c/1115960cH021.html

标题:伯克利|UC伯克利发现「没有免费午餐定理」加强版:每个神经网络,都是一个高维向量


上一篇:聊天记录|保护隐私?微信输入法开启新一轮内测:没有独立APP

下一篇:半导体|鸿海集团斥资 15.27 亿元,投资半导体/电动汽车