UC伯克利发现「没有免费午餐定理」加强版:每个神经网络,都是一个高维向量
2023-04-28 来源:飞速影视
经典的「没有免费午餐定理」表明:如果某种学习算法在某些方面比另一种学习算法更优,则肯定会在其它某些方面弱于另一种学习算法。
也就是说,对于任何一个学习问题,没有最优的算法,只有最合适的算法。
而在这项最新研究中,作者向我们揭示了这一现象背后的数学原理:每个神经网络,都是一个高维向量。
在高维向量空间中,不存在单调的大小比较。如果两个向量A、B是垂直的,则内积为零,通常也反映两者更加不相关,比如作用在物体运动方向的垂直方向的力就不做功。
类似地,如果两个神经网络对应的向量内积为零,则反映它们的相似程度更低。
在拟合第三个向量C,也就是通过数据进行训练和学习时,如果A和C内积更大,则表示A更容易学习C,也反映B更不容易学习C。
另一方面,当A通过训练变得更加接近C时,与C垂直的另一个神经网络D也会因此和A更加不相关,也就是A变得更加难以学习D。
此即本文提出的「没有免费午餐定理」加强版。
利用这个数学描述,我们就可以量化神经网络的泛化能力。
该研究主要基于宽神经网络,而表示神经网络的高维空间的每一个维度,都是由神经正切核的特征向量构成的。
神经正切核与宽神经网络的联系,在之前的文章中已有介绍,参见:深度学习为何泛化的那么好?秘密或许隐藏在内核机中
同时,作者也指出,该发现在宽度较小的网络中也成立。
在高维空间中,神经网络泛化性的非单调数学关系一览无余。
作者 | Mr Bear、杏花
编辑 | 青暮
长期以来,探寻神经网络泛化性能的量化方法一直是深度学习研究的核心目标。
尽管深度学习在许多任务上取得了巨大的成功,但是从根本上说,我们还无法很好地解释神经网络学习的函数为什么可以很好地泛化到未曾见过的数据上。
从传统的统计学习理论的直觉出发,过参数化的神经网络难以获得如此好的泛化效果,我们也很难得到有用的泛化界。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号