辛普森悖论总是令人困惑的例子吗?

机器算法验证 混杂 辛普森悖论
2022-03-25 20:35:13

辛普森悖论总是令人困惑的例子吗?或者是否有可能在没有额外变量潜伏在背景中的情况下产生辛普森悖论效应?

3个回答

这是一个没有混淆的辛普森悖论的简单视觉示例:

在此处输入图像描述

观察两个变量 Sex 和 Medical Cost 之间的关系,似乎存在很强的因果关系:

在此处输入图像描述

但是,如果在因果图中添加第三个变量 Age:

在此处输入图像描述

很明显,Sex 和 Cost 之间的关系并不显着,Age 和 Cost 之间存在很强的线性关系。

同时,图中的年龄和性别之间显然不应该存在因果关系,因此年龄不是一个混杂因素。需要明确的是,在此示例中,Sex 将不再与 Cost 存在因果关系,根据定义,这意味着如果路径图中只有两个变量,则不可能进行混淆。

您可以想象基于 X 形成子类,并且每个子类中 X 和 Y 之间的关系与整个样本中 X 和 Y 之间的关系相反。您可以将子类视为混杂因素,但如果您人为地强加了它们,并且它们仅来自已测量的 X 变量,则无需引入额外的实质性混杂变量。

不,辛普森悖论并不总是关于混淆。实际上,如果您已经知道要调整的协变量是混杂因素,我会说没有理由对符号反转感到惊讶,您应该在此处查看此答案。您可以对对撞机或调解员进行符号反转调整,并且没有因果知识,您无法知道哪个估计会给您正确的答案。如果您想在每次包含用于调整的协变量时显示多个符号反转的模拟,您可以查看Dagitty 网站上的 Simpson Machine。