Nature计算科学综述:经由准实验,从观察数据中推测因果关系(2)
2023-05-20 来源:飞速影视
尽管大多数数据科学都集中于使用统计学和机器学习的工具来进行预测[1],并从数据中“提取洞见”,但许多问题根源都是因果关系,模型所做的预测和所获得的洞见,被用来为决策提供信息。例如,数据科学家可以建立一个机器学习模型来预测哪些患者可能在30天内再次入院,但利益相关者最终想知道可以采取哪些干预或政策,以便降低患者再次入院的风险。数据科学家需要在他们的工具包中添加因果方法,以回答他们打算解决的许多问题中的因果问题。
由于相关性不足以构成因果关系,因此将数据科学分析中,将常见的相关结果误解为因果关系是危险的。任何典型的有监督的机器学习方法(例如,基于一组特征的预测)都不足以推断因果关系,因为用于预测的机器学习模型训练本质上是一个相关性的任务:机器学习模型在做出预测时只是“观察”数据中的特征和结果之间的关系,而非“改变”特征来确定它们对结果的影响[2, 3]。
一个例子:某个用来预测肺炎患者死亡率的模型得出了一个矛盾的结论,即哮喘降低了肺炎患者的死亡率[4]。这个模型没有任何错误:在训练数据中,有哮喘的病人更有可能住进医院、接受更积极的治疗,最终导致较低的死亡率。然而,从决策的角度来看,该模型可能有害,因为在这种预测下,可能会使哮喘病人得不到他们实际需要的额外护理。传统的机器学习总是存在一种风险:那就是未观察到的特征可能正是决定性因素。
已有很多方法,以更适当地从观测数据(没有随机对照实验的情况下)来估计因果关系。该文回顾了标准的准实验方法,这些方法已经在经济学中得到了广泛的应用;但并未在经济学以外广为人知。该文讨论了它们的假设,为什么这些方法应该被更广泛地采用,并用现实世界的例子以及公共数据科学领域的潜在应用来说明作者的观点。最后,该文提倡准实验方法和数据科学的交叉结合:准实验可以在典型的数据科学环境中进行因果推断,而机器学习的创新反过来可以改进这些方法,以便在复杂的数据领域中得到更广泛的应用。
2. 观测研究中的混杂因子和碰撞因子
观测数据对因果推断来说的核心问题存在不被观测到的混淆因素。人们希望确定治疗 x(住院)对结果 y (肺炎风险)的影响,但是有一个隐藏的混淆因子 z(哮喘)同时影响 x 和 y。如果研究人员可以进行一个实验:自行确定X的取值(即令X为自由变量),然后借此消除混淆因素、从而识别 x 对 y 的因果效应(图1a)。实验应用于医学(临床试验)、公共卫生(俄勒冈州医疗补助彩票试验[5])、软件开发和广告(a/b 测试)、以及 ML(强化学习[6, 7, 8])。然而,实验可能代价高昂、违反道德或者不切实际。此外,大多数数据是基于数据科学观察得出的,但科研人员仍然想要估计因果效应。要从观测数据中推断因果关系,通常需要对数据生成过程做不可检验的假设。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号