机器学习正遭遇“可重复性危机”,或已成“炼金术”?(5)
2023-04-24 来源:飞速影视
这些似乎都是十分荒谬的相关性例子,但我想指出的是,如果将这些变量放到提供给机器学习算法进行训练的数据集中,则该算法不会考虑所述因果关系的有效性或者提出任何问题,而是很轻易地接受此相关性作为因果变量。从这个角度看,该算法很可能是不准确或者错误的,因为软件只负责识别出仅存于该数据集而不是现实世界中的模式。
伪相关性的出现,正是由于人们越来越普遍地使用一些具有成千上万个变量的大型数据集。而近几年来,伪相关性发生的频率也变得惊人的多。
如果我有上千个变量和数百万个数据点,那么这些数据之中不可避免的会出现相关性。算法可以锁定这些因素并将其认定为因果关系,从而有效地执行无意识的 p-hacking,而 p-hacking 是一项还没有在学术界得到认可的技术。
1、什么是 p-hacking
p-hacking的做法包括获取数据集以及尽可能全面地搜索其中具有统计学意义的相关性,并将这些相关性视为科学有效。
你拥有的数据越多,就越有可能在两个变量之间找到伪相关性。
通常来说,科学研究包括了提出假设、收集数据以及通过对数据进行分析以确定假设是否有效。p-hacking 所做的是先进行一个实验,然后通过既得实验结果形成事后假设来解释它们所获得的数据。这样做本身是没有恶意的,但是有些时候,科学家们这么做仅仅是为了让他们能够发表更多的论文。
2、增强相关性
机器学习算法的另一个问题是算法必须能够做出预测,这就好比算法不能在最后说“我什么都没找到”。这种算法框架的脆弱性意味着,无论最终特征结果多不合适,它总能找到某种可以用来解释数据的方法(需要在算法和数据正确设置的前提下实现,否则可能无法收敛)。
目前,我还没听过哪个机器学习算法能够返回用户并告诉他们数据是不合适的,这项工作已经被暗定为科学家的任务——而这并不是什么公平的假设。
“那为什么还使用机器学习呢?”
这是一个很好的问题。机器学习使数据集的分析变得简易,并且 ML 算法可以帮助用户进行大量的工作。在由于数据集太大而无法使用标准统计技术进行有效分析的领域中,这一点就变得弥足珍贵。尽管它加速了科学家的工作进度,但是机器学习在预测质量上存在的问题足以抵消机器学习带来的生产效率上的提高。
三、下一步可以做什么?
机器学习的前景也并非完全黯淡无光。传统统计方法和数据集也一直存在着类似的问题,只是在机器学习中这些问题由于大型数据集和算法的大量使用而被放大了。这些数据集和算法可以自动找到数据的相关性,与传统技术相比,使得我们更难对找到的相关性进行解释。同时,上述这种放大也暴露了科学研究过程中有待克服的弱点。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号