回归。与变量相关的交互项

机器算法验证 回归 相互作用
2022-04-06 15:39:39

在拟合多变量回归模型之前,通常检查预测变量是否相关。
这可以通过查看相关矩阵来完成,至少对于线性效应。

简单最小二乘回归需要预测变量是独立的。
我们可以容忍小的相关性,但如果变量完全共线,问题就会变得严重。

通常会删除一些相关变量,保留最有意义的变量。
存在更复杂的替代方法,例如 PCA o 岭回归。

但这是我的问题:
如果您的模型包含交互作用,这些交互作用与其他变量非常相关。
例如,在可能与非常相关。 F=a+b·X+c·Y+d·X·Y
X·YXY

如果我的模型有一个交互项(并且它在统计上对我来说很重要并且很重要)但它与一些变量非常相关......
我应该放弃它还是保留它?
如果我保留它,我将违反非相关项的回归条件。

2个回答

收下。这是不偏不倚和精确之间的选择之一。

具有相关自变量的负面影响是它们夸大了彼此的方差(量化这种现象的统计数据称为方差膨胀因子)。结果是扩大的标准误差,这导致较低的 t 统计量,从而导致较高的 p 值。

如果交互项在统计上已经显着,则上述问题与您的模型无关。然而另一方面,取出它可能会产生严重的后果,因为如果没有这种相互作用,模型中的估计()可能会出现偏差。一旦估计有偏差,就没有太多要讨论它的精确度了。因此,最好保留交互项。bc

另外,我建议在检查可能的交互时仔细考虑。虽然我们可以对它们中的每一个进行统计检查,但背后有一个因果框架的重要性怎么强调都不为过。最后,许多分析无法检查交互作用(大多数研究人员并不认为这是一个正式的假设),因此请注意不要自欺欺人地认为如果没有一个,就没有一个。

考虑(大约)将您的变量居中,这将最小化它们之间的相关性及其相互作用。XY

尽管如果预测变量是独立的,回归结果的解释确实会更容易,但这并不是必需的。毕竟我们这样做的原因是为了看到每个预测器的效果超过其他预测器的效果。