机器学习正遭遇“可重复性危机”,或已成“炼金术”?(3)
2023-04-24 来源:飞速影视
这一挑战涉及多个学科,因为机器学习在天文学、基因组学、环境科学和医疗保健等多个领域都被应用于获取发现。
其中,Genevera Allen 使用的最主要的例子是基因组数据,这些数据通常是数据量非常巨大的数百 GB 或数个 TB 的数据集。她指出,当科学家使用自己不太了解的 ML 算法对基因组图谱进行聚类分析时,常常会出现似是而非、不可重复的结果。
直到另一个团队进行了类似的分析研究,并得出了完全不同的结果,这才使得之前的结果变得有争议且被人质疑。这其中可能有多种原因:
缺乏算法知识对数据缺乏了解对结果的曲解二、造成“可重复性危机”的原因
1、算法知识的欠缺
缺乏算法知识的现象在机器学习应用领域显得极为普遍。如果你不明白一个算法是如何产生结果的,那又怎么能确定它有没有作弊,或者其得到的变量间相关性的结果实际上是虚假的呢?
由于参数太多(深度神经网络通常有数百万个参数),这是神经网络中的一大问题。而实际上用于记数的不仅仅有参数,还有超参数,包括学习率、初始化策略、迭代次数和网络结构等项。
仅仅意识到自己缺乏算法知识是不足以解决这个问题的。如果不同研究的论文中使用的是不同的网络,你又如何将这些结果进行比较?由于高维神经网络损失函数的动态结构图具有高度复杂性,即使只增加一个额外变量或改变一个超参数也会对结果产生显著的影响。
2、对数据缺乏了解
缺乏数据知识也是一个巨大的难题,但这一问题可以延伸到传统的统计技术方法。数据采集中的误差——如量化误差、测量不确定性和智能体变量的使用,这是主要的问题。
次优数据也常常会造成一些问题,但是了解什么样的数据适合使用什么样的算法也是非常重要的,并且这一选择可能会对结果产生重大影响。一次简单的回归检验就可以很轻松地证明这一点。
通常地,在实验中会出现参数多于数据点的现象(这在基因组学中是非常正常的,因为我们有很多基因,很少数据点),如果我们使用线性回归方法,那么我们选择的正则化方式会严重影响被视作为重要的参数。
如果我们使用套索回归( LASSO Regression),该回归方法趋向于将明显不重要的变量统统变为零,从而从回归中将它们消除并提供一些变量选择。
如果我们使用岭回归( Ridge Regression),该回归方法倾向于将这些不重要的参数缩小到足够小,以至于它们可以忽略不计,但同时将它们从数据集中删除也是有必要的。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号