如果我们也可以从相关矩阵中找到多重共线性,为什么我们更喜欢 VIF?其背后的确切逻辑是什么?
如果我们也可以从相关矩阵中找到多重共线性,为什么我们更喜欢 VIF?
数据挖掘
预测建模
回归
2022-02-18 06:57:01
2个回答
相关矩阵不是多重共线性的可靠度量,因为它只考虑成对效应。不幸的是,多重共线性定义为:
多元回归模型中两个或多个预测变量高度相关的现象,
你明白重点了吗?您需要考虑与数据集中所有其他变量的相关性,而不仅仅是一对一的成对比较。
VIF 解决了这个问题。
如果您有 10000 行和 100 列,其中所有 100 个为 1,其余为 0。每一行都有一个 1 和其余的 0,这是一个经典的 one hot 编码矩阵。两个随机列之间的相关性为-0.01010101,这意味着相关矩阵的对角线为1,其余为-0.01010101。然而,这个矩阵是完全多重共线性的。
其它你可能感兴趣的问题