DAG 和所有模型都是错误的座右铭,这意味着什么?

机器算法验证 因果关系 达格
2022-03-31 12:33:27

假设我有一个 DAG,并且我找到了估计利益因果关系的正确方法(要进行哪些调整等)。然后,我意识到我的模型是错误的。根据我的模型如何错误,我最初的假设可能有效,也可能无效。

既然常见的情况是(俗话说)我的所有模型都是错误的,那么有没有关于我的因果识别策略对拥有正确模型有多敏感的定理?

为了(只是)更正式一点,假设我有一个可能模型(DAG)的模型空间 M。模型 m 不能正确识别因果效应的概率是多少?有没有上限或下限?

假设我可以执行任何你想用尽可能多的数据点估计因果效应的实验。有没有办法让我从这个新证据中评估我的原始因果模型是否有机会正确识别因果效应?

2个回答

我相信您正在寻找的语言是敏感性分析。敏感性分析是检查您为确定影响而做出的因果假设。多年来,文献中已经对敏感性分析进行了相当多的探索,可以追溯到很长一段时间1但是,要回答您的问题,是的,您可以对因果效应设置界限,但这些界限的用处可能非常有限。

为了提供一个示例,我只想重新构建您关于多个 DAG 存在的问题。相反,我会将其视为一个问题,即可能存在一些未观察到的变量,这些变量会破坏您开发的 DAG 中的后门路径标准。

一个简单的例子是,你有一条从治疗到结果的直接路径,以及一个影响两者的混杂因素令人担忧的是,存在另一个未观察到的混杂因素会使您的结果产生偏差。XYZW

我们知道,混杂因素会影响我们的估计,它包括两件事:处理和控制之间的不平衡以及混杂关系的大小。因此,如果我们假设某种程度的不平衡并使用先验知识来估计幅度的界限和方向,我们可以估计由未观察到的混杂因素引起的偏差。

我在下面引用的第一篇文章被用作敏感性分析的一个例子。如果您想了解更多内容,请查看第二个引文。在引言中引用了几篇以前的文章。此外,该方法非常有趣。

  1. Cornfield, J., Haenszel, W., Hammond, EC, Lilienfeld, AM, Shimkin, MB 和 Wynder, EL (1959)。吸烟和肺癌:最近的证据和一些问题的讨论。美国国家癌症研究所杂志,22(1),173-203。

  2. Cinelli, C. 和 Hazlett, C. (2020)。理解敏感性:扩展省略的变量偏差。皇家统计学会杂志,B 系列(统计方法)。

为了补充兰登的回答,让我进一步详细说明。

因果推理总是需要不可检验的假设,通常的假设是变量之间没有直接影响(排除限制)或变量之间没有未观察到的共同原因(独立性限制)。现在,让我们专注于这两者的违反,但是,当然,还有其他内置的假设,例如没有选择偏差、正确测量的变量、单位之间没有干扰等等。

所以我要指出的第一件事是,DAG 作为模型,在“所有模型都是错误的”座右铭下没有特殊地位——如果你不写下模型的隐含 DAG,你的模型仍然是“错误”(或者,更好的是,“没用”)。Wherr DAG 的真正帮助在于让您(和您的同行)更容易发现您的模型可能出错的地方,并更好地确定分歧的来源。然后,您可以评估您的结论是否对这种分歧敏感。

要执行此任务,我们需要工具来导出因果模型中感兴趣的目标数量的敏感性曲线。关于线性结构模型,我们刚刚开始开发使这种敏感性分析自动化和系统化的算法。例如,举个例子:

在此处输入图像描述

假设您假设模型的因果影响已确定(并由调整的回归系数给出)。现在有人挑战您并说您假设之间没有未观察到的混杂因素是不合理的,这导致了替代模型模型然而,在中,因果效应不再可识别。所以,你可以做什么?这就是敏感性分析的用武之地。GOXYZZXGAGA

不是点识别因果效应,而是将因果效应表达为模型中其他无法识别的参数的函数——例如未观察到的混杂因素的强度。然后,您可以看到您的结论对该参数的不同强度有多敏感,并借助外部知识和对这些参数的科学合理性判断来限制感兴趣的因果效应。

所以我们需要解决的第一个任务是确定一些参数的信息,比如,XZ, 足以识别感兴趣的数量并找到正确的估计值。完成此操作后,您可以使用它来查看您的估计对违反零混杂假设的敏感性。

所以,回到这个例子,在GA, 你能用这些信息来限制因果关系吗XY? 这里的答案是肯定的,我们可以通过算法推导出灵敏度曲线(如果模型是GB,答案是否定的)。但是假设你没有关于混杂因素本身的直接外部信息,但你确实有一些先前的研究,这些研究对ZX. 我们可以使用该信息进行敏感性分析吗?XY反而?这里的答案也是肯定的。通过这种方式,我们正在构建工具,以对违反任意因果模型(以 DAG 为代表)的假设进行有纪律的讨论。