Nature计算科学综述:经由准实验,从观察数据中推测因果关系(7)
2023-05-20 来源:飞速影视
图3. 断点分析示意图(Regression discontinuity designs)
上图A:描述断点分析如何使用连续变量 R 中的阈值 t 有效地随机化处理 x (交叉红线)来估计其对Y的因果效应。图B:结果Y对连续变量R的散点(蓝点)和局部回归拟合(红线)。拟合分别使用断点(虚线)左右两侧的线性模拟数据。图C:结果Y对连续变量R的散点(蓝点)和局部回归拟合(红线)。拟合分别使用断点(虚线)左右两侧的非线性模拟数据。
断点分析的典型例子是关于高中的学术证书(x)及其对后来的学术成就的影响——如是否获得奖学金(y)。美国高中生参加一个标准化考试,即国家优秀奖学金资格考试(NMSQT) ,满足最低分数线的学生将获得全国认可的优秀证书。这里的连续变量是 NMSQT 测试分数(r)。刚刚达到截止分数的学生与刚刚错过截止分数的学生没有实质上的区别,本质上是随机分配接近截止分数的优异证书。这种半随机化的设计可以估计优异证书与接受阈值附近的学生奖学金之间的因果关系。在前文提到的医疗场景下,使用肺炎风险评分,与阈值判定是否住院的数据,通过断点分析,也可用于进行因果估计。
使用断点分析获得因果估计的一个常用方法是在阈值的左右两侧拟合运行变量 r (测试分数)的结果 y (奖学金数额)的两个模型,称为线性情况下的局部线性回归(图3b 描述模拟数据的局部线性回归)[34, 35]。阈值 x (优异证书)的因果效应大小等于两个拟合回归方程在阈值左右的预测值的差异。实现断点分析的一个实际考虑考虑带宽规模:一个人距离能够并且仍然能够有效地进行随机处理的临界值有多远?较小的带宽使准随机处理更为可信,但也减少了拟合回归的样本容量。然而,更大的带宽可能会在我们的估计中引入偏差,特别是如果断点变量 r 和结果 y 之间的关系是非线性的,如图3C 中的模拟数据所示:注意在阈值左右局部回归之间的差异与结果 y 中的实际不连续变化不匹配。幸运的是,计量经济学一直在探索最佳且由数据驱动的带宽选择方法bandwidth selection methods[36, 37]。
在阈值两侧拟合局部模型利用了阈值处理的准随机性,使研究人员能够量化因果效应。
与工具变量分析类似,在执行断点分析时需要一些假设,以确保有效的估计。研究人员假设只有断点变量 r 有一个不连续的跳跃,驱动干预和结果之间的因果关系(图3a)。这个假设可以通过验证其他测量的协变量在 r 的截止值上的连续性而在实践中被证伪。另一个关键的假设要求个体不能完全操纵断点变量,因为这可能使阈值上下的群体无法比较。在研究人员上面的例子中,如果一些学生能够精确地控制他们的考试成绩,以至于他们仅仅通过足够的学习就达到了优秀证书的阈值,这将违反处理的准随机化。经济学家已经为这种操纵变量的运行是否存在开发了检验方法,从而为验证该假设提供了可能[38]。值得注意的是,断点回归分析并不需要不包含混淆因素,才能做出有效的因果估计。由于其相对薄弱和经常可证伪的假设,断点分析被称为最可靠的基于观测数据估计因果关系的准实验方法之一[39]。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号