UC伯克利发现「没有免费午餐定理」加强版:每个神经网络,都是一个高维向量(16)

2023-04-28 来源:飞速影视
完美地契合。垂直的虚线代表每个学习问题下的 C 值。(A-C)可学习性 vs. 单位圆本征模的特征值。(D-F)n=64 时的可学习性曲线。此时每条曲线上的本征模都高于(A-C)中的情况,这说明由于 n 的增大导致可学习性也得以提升。(G)中的点来自(A-F),经过了放缩处理,放到了同一张图中。
非均方误差曲线

UC伯克利发现「没有免费午餐定理」加强版:每个神经网络,都是一个高维向量


图 9:本文提出的理论可以正确预测,对于特征值较小的特征函数。
MSE会随着数据点被加入到较小的训练集中而增大。(A-C)在给定的 n 个训练点的 3 个不同域上分别学习 4 个不同特征模时,NTK 回归和有限网络的泛化 MSE。理论曲线与实验数据非常吻合。
宽度有限网络下的情况

UC伯克利发现「没有免费午餐定理」加强版:每个神经网络,都是一个高维向量


图 10:即使是对于宽度非常窄的网络,本文理论上对可学习性的预测仍然十分准确。
上图显式了 8d 超立方体上的四个特征模式的可学习性和训练集大小的关系,作者使用了一个包含 4 个隐藏层的网络进行学习,其网络宽度可变,激活函数为 ReLU。所有图表中的理论曲线都相同,虚线表示了朴素的、泛化性能极差的模型的可学习性。(A)严格的 NTK 回归下的可学习性(B-F)有限宽度网络的可学习性。随着宽度的减小,平均的可学习性微弱增大, 1σ误差增大。尽管如此,即使在宽度仅仅为 20 时,平均学习率也与理论预测值十分契合。
7
质疑
在reddit上,有人指出,这种量化计算的前提是要学习的函数f^是已知的,“但如何应用于学习函数完全未知的情况呢?”
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号