机器算法验证 - 居中是多重共线性的有效解决方案吗？ - 吾爱随笔录

居中是多重共线性的有效解决方案吗？

机器算法验证多重共线性特征值定心方差膨胀因子

2022-04-12 05:59:09

假设其中和都是索引，范围都是，其中是最小值，是最大值。我通过应用 VIF、CI 和特征值方法发现和是共线的。这些指标能否以均值为中心来解决多重共线性问题？ $y = a + a_1x_1 + a_2x_2 + a_3x_3 + e$ $x_1$ $x_2$ $0-10$ $0$ $10$ $x_1$ $x_2$

3个回答

当模型是加法和线性时，居中与共线性无关。仅当每个变量有多个项（例如平方项或交互项）时，居中才有帮助。即使这样，居中也只会以对我们无关紧要的方式有所帮助，因为当模型中存在多个连接变量时，居中不会影响最相关的合并多自由度测试。例如，如果一个模型包含和，则最相关的测试是关联的 2 df 测试，它完全不受中心化的影响。下一个最相关的测试是的影响，它再次完全不受居中影响。 $X$ $X^2$ $X$ $X^2$

（一个简单的发现方法是尝试它并使用与第一次发现多重共线性相同的方法检查多重共线性;-)

不，不幸的是，居中和对您没有帮助。当您仅具有两个变量的多重共线性时，这两个变量之间具有（非常强的）成对相关性。考虑这个例子： $x_1$ $x_2$ R

library(MASS)
set.seed(1)
X = mvrnorm(100, mu=c(30,30), Sigma=rbind(c(100,  97),
                                          c( 97, 100) ))
x1 = X[,1]
x2 = X[,2]
cor(x1, x2)
# [1] 0.9698819

在此处输入图像描述

居中只是一种线性变换，因此它不会改变分布的形状或它们之间的关系。相反，它只是将它们向一个方向或另一个方向滑动。为了看到这一点，让我们用我们的数据来试试：

x1c = x1 - mean(x1)
x2c = x2 - mean(x2)
cor(x1c, x2c)
# [1] 0.9698819

相关性完全相同。以下是新变量的样子：

在此处输入图像描述

它们看起来也完全相同，只是它们现在以为中心。 $(0, 0)$

要了解有关这些主题的更多信息，阅读以下 CV 主题可能会有所帮助：

当您询问居中是否是多重共线性问题的有效解决方案时，我认为讨论问题的实际含义是有帮助的。我这样说是因为对于多重共线性是否是需要统计解决方案的“问题”存在很大分歧。许多人，也包括许多非常有名望的人，对多重共线性有非常强烈的看法，这甚至嘲笑认为这是一个问题的人。最好的例子是戈德伯格，他将多重共线性检验与“小样本量”检验进行了比较，这显然是无稽之谈。在 Dave Giles 的博客中可以找到非常好的说明。有关 Goldberger 示例，请参见此处和此处。

让我定义一下我在多重共线性下的理解：你的一个或多个解释变量在某种程度上是相关的。那有什么问题？好吧，可以证明您的估计量的方差增加了。这是一个需要解决的问题吗？好吧，从元角度来看，这是一个理想的属性。如果您的变量不包含太多独立信息，那么您的估计器的方差应该反映这一点。然而，从研究人员的角度来看，这通常是一个问题，因为发表偏差迫使我们将星数放入表格中，并且估计量的高方差意味着低功效，如果效果很小或有噪声，这对发现显着效果是不利的。如果这是问题所在，那么您正在寻找的是提高精度的方法。

但是就停在这里！注意：如果确实发现了影响，则可以停止考虑多重共线性问题。显然，即使您的变量中的独立信息是有限的，即它们是相关的，您仍然能够检测到您正在寻找的效果。所以“问题”对你没有任何影响。

现在问你的问题：从你的数据中减去意味着“解决共线性”吗？已经给出了一个答案：减去常数不会改变所述变量的共线性。您可以通过问自己来了解这一点：变量之间的协方差是否发生了变化？好吧，既然协方差被定义为，或者如果你愿意，它们的示例类似物，那么你会看到加法或减法常数无关紧要。因此，居中对解释变量的共线性没有影响。 $Cov(x_i,x_j) = E[(x_i-E[x_i])(x_j-E[x_j])]$

定心能提高您的精度吗？在这种情况下，我们需要查看估计器的方差-协方差矩阵并进行比较。问题是很难比较：在非居中的情况下，当模型中包含截距时，您将拥有一个多维矩阵（请注意，我假设您将跳过回归中的常数中心变量）。但是，由于不再有截距，因此明显消除了对其他估计截距估计的依赖性（即，如果您将共线性问题定义为“回归量之间的（强）依赖性，由非对角线元素测量）的方差-协方差矩阵”，那么答案比简单的“否”更复杂）。任何状况之下，可能是您估计的标准误差看起来较低，这意味着通过居中可以提高精度（模拟这个来测试这个可能很有趣）。话虽如此，如果您进行统计测试，则需要正确调整自由度，然后很可能会丢失精度的明显提高（如果不是，我会感到惊讶）。

如果定心不能以有意义的方式提高您的精度，有什么帮助？您可以考虑将高度相关的变量合并为一个因素（如果这在您的应用程序中有意义）。去除异常值也往往会有所帮助，GLM 估计等也有帮助（尽管现在这种方法应用得不太广泛）。

其它你可能感兴趣的问题

上一篇计算线性回归时使用年份？下一篇“分布大于分布”是什么意思？