Nature计算科学综述:经由准实验,从观察数据中推测因果关系(4)

2023-05-20 来源:飞速影视
需要有领域知识才能构建结构因果模型中的DAG,并证明在假设的图表中没有缺少混杂因素[3]。虽然研究人员可以通过检查数据中是否反映了变量之间的隐含条件独立性[2],来在一定程度上检验图中变量之间的联系的正确性,但是不包含混淆因素通常是不可检验的[14]。除非人们对假设的DAG 的准确性有强烈的坚持,否则总会存在未被观察到的混杂因素导致可能的因果估计偏差。
还有许多其他技术旨在从观测数据中估计因果效应,尽管它们常常依赖于非混淆假设及其变体。匹配和逆概率加权是社会科学中常用的两种方法,可以用来控制因果估计中的混杂偏差[12, 15]。机器学习方法将处理效果treatment effect估计转换为两个预测任务,允许在高维数据中进行因果推断[16]。
在最近的机器学习领域[18, 19, 20]的活跃研究中,还有一个关于因果发现[17]的热点领域,目标是从数据本身推断出因果关系图:研究人员通常使用无混淆因子作为一种假设。潜变量模型也被应用于观察性因果推断,它不要求不包含混淆因子,但确实需要对影响结果的原因的独立性和数量作出具体的假设[21]。因为在现实世界的问题中,无混杂因子通常很难被证明是正确的,所以科学家们选择在这里强调准实验策略。
3. 准实验策略之工具变量估计
准实验是经济学领域的已经成熟的观测因果关系的框架,利用观测数据中自然存在的随机性来估计因果效应。过去几十年间[22, 23],经济学家越来越多地使用准实验技术来估计现实世界的因果效应。这些方法也依赖于对数据因果结构的假设,但是这些假设可能比不包含混乱因子更合理。下面,本文回顾利用自然发生的随机性来估计因果效应。
第一个方法称为工具变量估计[24],旨在寻找工具变量,它产生的影响必须通过我们关心的 X 来实现(图2a)。换句话说,研究人员不是要求系统不包括混淆因子,而是要求其某个组成部分不包含混淆因子,然后用它来估计因果关系。

Nature计算科学综述:经由准实验,从观察数据中推测因果关系


图2. 在有向无环图中的表示工具变量IV 如何影响x 对 y 的因果影响
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号