让我们首先区分完美多重共线性(模型矩阵不是满秩,因此通常的矩阵求逆失败。通常是由于预测变量的错误指定)和非完美多重共线性(一些预测变量相关而不导致计算问题)。这个答案是关于第二种类型的,它几乎出现在任何多变量线性模型中,因为预测变量没有理由不相关。
一个具有强多重共线性的简单示例是二次回归。所以唯一的预测变量是和:X1=XX2=X2
set.seed(60)
X1 <- abs(rnorm(60))
X2 <- X1^2
cor(X1,X2) # Result: 0.967
此示例说明了您的问题/主张:
1.多重共线性不影响模型整体的回归。
让我们看一个示例模型:
Y <- 0.5*X1 + X2 + rnorm(60)
fit <- lm(Y~X1+X2)
summary(fit)
#Result
[...]
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.3439 0.3214 -1.070 0.289
X1 1.3235 0.8323 1.590 0.117
X2 0.5861 0.3931 1.491 0.141
Residual standard error: 1.014 on 57 degrees of freedom
Multiple R-squared: 0.7147, Adjusted R-squared: 0.7047
F-statistic: 71.39 on 2 and 57 DF, p-value: 2.996e-16
关于模型的全局声明很好:
2. 但是,如果我们开始查看单个变量 Xs 对解释变量的影响,那么我们将得到不准确的估计。
估计是准确的,这不是问题。孤立效应的标准解释的问题在于,我们将所有其他预测变量固定,如果与其他预测变量有很强的相关性,这很奇怪。在我们的示例中,甚至错误地说“增加1 并保持值增加 1.3235 ,因为YX1X2X2=X21. 由于我们无法描述性地解释孤立效应,因此所有关于它们的归纳陈述都没有用:查看输出中的 t 检验。两者都高于 5% 的水平,尽管全球关联测试给我们的 p 值低于 5%。这种 t 检验的原假设是“预测变量的影响为零”,或者换句话说,“包含该预测变量不会增加总体中的真实 R 平方”。因为和几乎完全相关,所以如果我们去掉两个变量之一,模型的 R 平方几乎相同:X1X2
summary(lm(Y~X1))
# Gives
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.7033 0.2148 -3.274 0.00179 **
X1 2.5232 0.2151 11.733 < 2e-16 ***
Residual standard error: 1.025 on 58 degrees of freedom
Multiple R-squared: 0.7036, Adjusted R-squared: 0.6985
F-statistic: 137.7 on 1 and 58 DF, p-value: < 2.2e-16
这已经说明了语句的第一部分:
要记住的另一件事是,对各个系数的测试均假设所有其他预测变量都在模型中。换句话说,只要所有其他预测变量都在模型中,每个预测变量都不重要。两个或多个预测变量之间必须存在某种相互作用或相互依赖。
这里的最后一个陈述显然是错误的。