当代表两个变量的向量从未真正共线时,为什么我们使用术语多重共线性?

机器算法验证 多重回归 术语 多重共线性
2022-04-11 04:58:32

当两个向量共线(其中是标量)因此在线性代数中,共线性是一个狭义且明确定义的(和二元)概念。两个向量——在我的理解中——要么共线,要么不共线;没有不同程度的共线性。如果aba=xbxab在计量经济学中表示不同的时间序列或样本,因此我希望在任何经验背景下都不会真正找到(多重)共线性,因为两个不同的时间序列或样本几乎不可能是彼此的精确倍数。我们可以找到相关性,我也可以想象找到在某些情况下至少近似共面的变量,但绝不是真正的共线性

那么为什么在计量经济学的背景下使用术语多重共线性,而它的真正含义似乎是多元回归模型中两个或多个解释变量之间的(统计上显着的)相关性?多重共线性问题是否意味着在某个显着性水平上拒绝无共线性的原假设,即使我们仅通过检查数据就可以确定解释变量之间严格来说不存在共线性?为什么多重相关 不是更准确的术语?

我最近遇到了完美和不完美多重共线性这两个术语,这也让我感到困惑。有人对此有严格的理解并可以分享吗?我将不胜感激!

1个回答

我认为没有人担心确切的共线性。如果是这样的话,将不可逆。这就是为什么在第一个假设之一的全列排名。人们担心不精确的关系,因为那时有系数需要解释,但它们太不可靠而没有用处。世界多重共线性通常是为后者保留的。但一个人很容易在极限内变成另一个人。想想这个行列式的值随着共线性的增加而下降,随着共线性变得精确而趋于零。也可以考虑辅助回归XXX|XX|Rj2趋于 1。也许这就是为什么我们对两者都使用相同的术语,尽管如果你手头有系数,极端情况是不可能的。

精确的线性关系最常出现在虚拟变量陷阱的上下文中,并且易于诊断。手头样本中一些回归变量之间近似线性关系的后果与数据集中回归变量的可变性不足的后果无法区分。Arthur Golberger 开玩笑说,我们应该将这种现象称为“微数字”。这是人们通常担心的问题,尽管它不违反我们通常的任何假设。

根据定义,这种多重共线性是您试图拟合回归模型的特定数据样本的一个特征。或多或少,这意味着您的数据中没有足够的信息来对基础(人口)模型的各个参数做出可靠的推断,尽管它们很可能提供信息。

您可以计算和报告各种样本度量(VIF 或条件指数),以帮助衡量此问题的严重程度。但它们不是统计测试。因为多重共线性是样本的一个特征,而不是总体的特征,所以你不能测试它,在同样的意义上,测试而不是是没有意义的。当然,也有一些群体关系检验经常被误解为多重共线性检验。β^=0β=0