当前位置：首页 > 资讯 >

Nature计算科学综述：经由准实验，从观察数据中推测因果关系(3)

2023-05-20 来源:飞速影视

图1. 估计实验和观测数据中因果关系的图示法。图A，一个实验研究的图形表示，因为 x 是随机的，导致治疗 x 和混淆因子z 无关。图B，观察性研究的图形表示，在这里碰撞因子 c 和混杂因子 z 都可以导致对因果效应的估计出现偏差。
许多从观察数据中估计因果关系的技术都依赖于假设所有的混杂因素（影响治疗 x 和结果 y 的变量）都在数据中得到观察与解释[9]。在这种情况下，可以控制混杂因素以获得有效的因果估计——例如，通过将它们加入回归。然而，研究人员通常不能知道自己是否记录了所有的混杂因素[10]，因此需要对这个假设放置在重要权重上（图1b）。从业者必须解释，他们的数据实际上包含所有相关的混杂因素（而且没有一个碰撞因子），对依赖于混杂因素的分析的批评往往集中在分析中包含缺失变量上。因为没有办法检验缺失变量是否是混杂因素，因果估计的信念取决于混杂因素假设是否可信。
例如，假设在本次肺炎风险问题中，研究人员分析衡量病人的哮喘并控制病情。这项研究可能会被挑刺：还有许多其他潜在的混杂因素没有被考虑在内，比如种族、社会经济地位、吸烟状况、其他病史等等。即使更多的这些潜在的混淆因素被作为研究的一部分进行测量并加以控制，依然可能有别的因素没有考虑到，这可能会威胁到结果的有效性。任何使用观测数据做因果主张的研究，要么使用不依赖于混杂因子的方法，要么需要提供一个令人信服的论据，证明混杂性至少是近似正确的。
除了混杂因子，数据科学家还必须能够识别那些不应该被控制的变量，即所谓的碰撞因子。与同时影响 x 和 y 的混杂因素不同，碰撞因子是受 x 和 y 影响的变量（图1b）。对碰撞因子的控制使研究人员的因果估计出错[11, 12]。例如，他们可以想象在肺炎问题中的一种可能性，即哮喘本身是住院（x）和肺炎（y）的对撞因子：肺炎可能使住院病人更有可能出现哮喘症状，也可能是由于住院期间遭遇过敏。除了测量相关变量以控制混杂，寻求因果估计的数据科学家需要确保被控制的变量不是碰撞因子。
Judea Pearl 推广的结构因果模型（SCM）是计算机科学中一个常用的因果推断框架[11]。SCM 将有向无环图（DAGs）结合起来，用一个数学框架来表达因果关系，该数学框架用于计算来自 DAG 的因果量，称为 do-calculus。结构因果模型的美妙之处在于，一个问题的因果结构可以用图形表示，从而使因果效应的假设和可识别性能更容易理解[13]。

1 2 3 4 5 ...27 查看全文

Nature计算科学综述：经由准实验，从观察数据中推测因果关系(3)

准教授‧高槻彰良的推测

准教授‧高槻彰良的推测第二季

潘多拉的果实~科学犯罪搜查档案~

潘多拉的果实～科学犯罪搜查档案～第二季

测不准的阿波连同学

据幸存的六人所述

基因危机：天才科学家的五日

中国式关系