您何时对分析进行分层而不是包含交互项?

机器算法验证 多重回归 分层
2022-04-10 23:05:34

我不太熟悉您何时以及为什么会在回归分析中对一个变量或一组变量进行分层,并且想知道与包含变量(单独或作为交互项)相比的问题是什么在没有分层的模型中。

我对 Cox 回归中的示例有些熟悉,在该示例中,当基线风险函数在变量的各个级别上不同时,您可以进行分层,变量是离散的,并且您不在乎是否对其进行了估计。在这种情况下,分层可能比包含与时间项的交互更可取。但我从未在其他回归环境中真正考虑过它。我错过了什么,我需要注意什么?

另外,我只是在谈论事物的分析方面,而不是在设计阶段或抽样阶段。如果这有助于缩小焦点,我只会对尚未从分层样本或设计中获取的观察数据进行二次分析。

还有一个具体的问题——我真的会检查模型中的每个预测变量是否进行分层吗?我了解到,如果您没有先验理由并且它们不是主要兴趣,则您不一定会检查交互。谢谢。

2个回答

分层方法不提供分层参数估计之间差异的统计显着性检验。

当模型除了修饰符之外还有许多协变量时,会出现更严重的统计缺陷。分层不必要地减弱了协变量之间的多重共线性,因为它允许分离到分层模型中的数据项之间没有统计上的相互关系。

与包含所有数据和使用交互项进行修改的测试的模型相比,分层模型会提供稍微不同且不太令人满意的结果。因此,分层模型对关联度量的解释也有细微的不同:统计推断只能推广到抽取样本层的总体,而不是整个原始样本。

最后,最严重的问题是,如果抽样设计没有考虑到相同的分层,您最终可能会在每个层中得到非常不同的相关风险分布,从而使跨层估计的比较无效。使用交互来测试修改,即使看起来难以理解,任何其他分析都是不正确的。

一个实际的区别是,分层分析通常更容易让非统计学家理解,但交互分析允许进行更多的比较——特别是,它给出了差异的参数估计、p 值和置信区间。