走进高维空间之“维度魔咒”,所有的“邻居”都去哪了?(8)

2023-04-26 来源:飞速影视
下面的图在X轴上显示了从1到10的维度,在Y轴上显示了覆盖每个预测器范围的10%的邻域所捕获的训练数据的比例。

走进高维空间之“维度魔咒”,所有的“邻居”都去哪了?


所有的邻居都去哪了?同样,在一个维度上,邻域覆盖了10%的训练数据。在二维,只有1%的训练数据! 如果我们把一个索引点的邻域定义为覆盖每个预测者范围的10%,那么一个10维的邻域将只包括训练数据的0.00000001%。
让我们用训练数据点的实际数量来重新定义这些数字,而不是百分比和比例。比方说,有100,000个训练数据点。这意味着,10维邻域平均来说,甚至没有捕捉到一个数据点(它将捕捉到0.0001个数据点)。这意味着,平均而言,每一万个邻域中,我们只能捕捉到一个邻域!这意味着很多空的邻域。这就是大量的空邻居!
因此,用一个直观合理的邻域大小(覆盖每个预测因子范围的10%),在更高维度上基本上没有邻域。而这里只到了10维!如果是100维,100万维呢?
你已经进入了一个新的领域。进入了没有邻居的地方! 邻居们都去哪儿了?为什么这些空间如此空旷?这些都是贯穿于高维空间的永恒的问题,这些问题引起了(并困扰着)许多统计学家,被精致地称为维度诅咒!
总结
我们在高维空间旅程到此结束。我们不仅亲身体验了这些空间的孤独,而且还看到了这种孤独是如何影响一个著名的统计工具,著名的K-近邻算法的。
我们再一次看到,高维空间充满了神秘和惊奇。在舒适的低维物理现实中认为理所当然的特征在高维空间中变得无法辨认。
`

相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号