走进高维空间之“维度魔咒”,所有的“邻居”都去哪了?
2023-04-26 来源:飞速影视
欢迎来到 "走进高维空间系列 "的第五部分,在这里我们将探索高维空间的一些奇怪和反直觉的奇观。距离高维空间系列第四部分走进高维空间——概率论与高维空间的深层次联系已经有一年多了。在阅读第五部分之前,我建议先浏览以下前四部分内容(这里我没有办法贴出所有链接,平台限制只能添加2个链接)。
第三部分是:走进高维空间——所有点之间的距离都相等!奇妙、疯狂、不可思议简单回顾以下前四部分的内容:
第一部分我们得出:在无限维空间中球体的体积都集中在边界上,我们只能知道这个结论,但是无法想象!第二部分的结论是,在高维空间中,内切于球内的立方体不完全在球体以内。.在第三部分中,我们推导出,在无限维空间中,点与点之间的距离都是相等的。第四部分讨论的是高维空间与概率论的联系。这些疯狂的、无法想象的高维空间现象让人兴奋,我们只能借助数学等工具去理解它们的真正含义。这篇文章,我们将见证这些奇迹之一是如何影响一个广泛使用的统计工具的。让我们开始吧!
预测问题
在各种领域中,人们通常会根据一个或多个预测变量的值来预测某个响应变量的值。也许我们希望预测一个病人在出院后30天内再次入院的概率(响应),因为有各种人口统计学和临床特征(预测因素例如,年龄、是否有并发症、实验室测量)。或者,我们希望根据房屋的各种特征(如邻里关系、卧室数量、面积)来预测房屋的销售价格。或者我们希望根据各种环境和农业特征(如降雨量、土壤成分、害虫管理策略)预测作物产量。
可靠地预测某些响应变量的值的能力是非常强大的,有大量的方法可以解决这类问题,每种方法都有不同的优点和局限性。今天,我们将特别关注其中的一个方法,因为它非常直观,最重要的是,它给我们提供了一个观察高维空间的一些奇迹的机会。
K-近邻算法(K-Nearest Neighbors)
如果我们想用一组特定的预测值来预测一个新的数据点的响应值,我们只需查看训练数据,找到所有具有完全相同的预测值的数据点,并计算出对这些训练数据点观察到的响应值的平均值或中位数。问题是,我们通常没有如此丰富的训练数据,而且很少有跨越所有可能的预测值组合的训练数据。当我们想预测一个新的数据点的响应值时,我们可能有一些类似的训练数据点的响应值,但没有完全相同的预测值组合。那该怎么办呢?构建一个模型。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号