如果我们也可以从相关矩阵中找到多重共线性,为什么我们更喜欢 VIF?

数据挖掘 预测建模 回归
2022-02-18 06:57:01

如果我们也可以从相关矩阵中找到多重共线性,为什么我们更喜欢 VIF?其背后的确切逻辑是什么?

2个回答

相关矩阵不是多重共线性的可靠度量,因为它只考虑成对效应。不幸的是,多重共线性定义为:

多元回归模型中两个或多个预测变量高度相关的现象,

你明白重点了吗?您需要考虑与数据集中所有其他变量的相关性,而不仅仅是一对一的成对比较。

VIF 解决了这个问题。

如果您有 10000 行和 100 列,其中所有 100 个为 1,其余为 0。每一行都有一个 1 和其余的 0,这是一个经典的 one hot 编码矩阵。两个随机列之间的相关性为-0.01010101,这意味着相关矩阵的对角线为1,其余为-0.01010101。然而,这个矩阵是完全多重共线性的。