Nature计算科学综述:经由准实验,从观察数据中推测因果关系(5)
2023-05-20 来源:飞速影视
图A:交叉边描述了有效的工具变量推断所需的假设: 无关假设(交叉灰边)以及工具变量和 y 之间没有未测量的混杂(交叉红边)。当 x 对 y 的真实处理效果(虚线)混淆时。图B:用100个模拟数据集对工具变量(橙色)和典型回归(蓝色)的因果效果直方图进行估计。图C:当 x 对 y 的真实处理效果(虚线)存在混淆因子并违反无关假设时,用100个模拟数据集对 IV (橙色)和典型回归(蓝色)的因果效果直方图进行估计。
经济学中工具变量分析(IV analysis)的一个著名例子考虑了以出生季节(z)为工具变量的必修课程(x)对个人未来工资(y)的影响[25]。在美国的许多州,儿童被要求在他们六岁的时候进入学校,所以在这一年晚些时候出生的人在他们的学校该年级中,相对年轻。由于州法律要求学生在某一特定年龄之前都要上学(例如16岁),因为出生季节的不同,个人被要求上学的时间也不同。只要研究人员能够假设出生季节实际上是随机的,并且其对未来工资的影响必须通过教育水平来实现,那么出生季节就可以作为一种估计因果影响的工具。
为了使用工具变量分析因果关系,必须确定干预(要求的学校教育)、结果(未来工资)和工具变量(出生季节),并假定工具变量只通过对干预的影响来影响结果。然后,研究人员通常执行所谓的两阶段最小二乘法[26],也已经提出了替代工具变量分析框架[27]:在第一阶段(
,其中 α 是拟合系数)对工具变量的处理进行回归,然后根据第一阶段(
,其中 β 是拟合系数)的处理估计结果进行回归。第一阶段由于工具变量的影响,提取了干预中‘不包括混淆因子的部分’,并在研究人员的第二阶段回归中使用这个成分来估计对结果的因果影响,从而控制了过程中的混淆因子:图2b 描述了混淆 x 对 y 的真正治疗效果的模拟数据,可以看到在即使存在混淆因子的因果图中,工具变量分析也给出了不偏不倚的因果估计。另一个令人鼓舞的例子,研究人员可以把前文提到的肺炎患者住院场所与家庭之间距离作为工具变量[28](因为距离医院多远似乎是随机的)。
在进行工具变量分析时,需要作出一些假设,以确保有效的估计。研究人员需要假设没有混淆变量同时影响工具变量本身和结果 y(图2a),这类似于不存在混淆因子的假设,但往往更有道理,因为工具的选择是随机的:论证出生季节与未来的工资是无关的结论,比论证政府干预 x ,即学校教育与未来的工资是无关的更合理。研究人员还需要确保工具变量只通过其对干预的影响影响系统,即所谓的无关假设(图2a):图2c 描述了模拟数据,其中 x 对 y 的真实干预效果是包含混淆因子的,并且无关假设也不符合的。研究人员发现,无论是工具变量分析 还是回归分析,都没有给出正确的因果估计。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号