如果你爬过山,怎会不了解机器学习?(12)
2023-05-03 来源:飞速影视
有1750亿个维度的空间听起来的确很大,但和无穷大相比,这个数量又显得微不足道。同样地,与所有可能的策略构成的空间相比,我们正在探索的只是其中很小的一部分。但在实践中,这似乎足以生成看起来像人类创作的文本,就好比DX21 的小型网络足以模拟出小号、大提琴和太空霹雳的音色。
这已经非常令人惊讶了,但还有一个更深层次的谜。记住,梯度下降法的理念就是不断转动旋钮,直到神经网络能在训练过的数据点上取得尽可能好的效果。今天的神经网络有许许多多旋钮,所以它们常能做到在训练集上表现完美,把 1000 幅猫图片中的每一幅都识别为“猫”,而把1000 幅其他图片全部识别为“非猫”。
事实上,有这么多的旋钮可以转动,让训练数据百分之百正确的所有可能策略就会构成一个巨大的空间。事实证明,当神经网络面对它从未见过的图片时,这些策略中的大多数都表现得很糟糕。但是,蠢笨又贪婪的梯度下降过程出现在某些策略中的频率通常高于其他策略,而在实践中,梯度下降法偏爱的那些策略似乎更容易推广到新的例子中。
为什么呢?是什么使得这种特殊形式的神经网络擅长应对各种各样的学习问题?我们在策略空间中搜索的这块微不足道的区域,为什么恰恰就包含了一个好的策略呢?
据我所知,它是一个谜。坦白地说,关于它是不是一个谜的问题,还存在很多争议。我向很多声名显赫的人工智能研究者提问过这个问题,他们回答起来个个口若悬河。其中一些人非常自信地解释了其中的原因,但每个人的说法都不一样。
作者简介
乔丹·埃伦伯格(Jordan Stuart Ellenberg,1971 -),美国数学家,1998年获哈佛大学博士学位,现任威斯康星大学麦迪逊分校John D. MacArthur教授;主要研究方向代数几何和数论。曾获多项科学传播奖项,出版《魔鬼数学》(How Not to Be Wrong),《几何学的力量》(Shape),小说The Grasshopper King等,作品常见于《华尔街日报》《纽约时报》,Slate, Wired等。
本文经授权节选自《几何学的力量》(中信出版社·鹦鹉螺,2023.3)第七章《机器学习如登山》,有删减。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号