如何处理两个自变量之间不可避免的相关性?

机器算法验证 相关性 多重共线性
2022-03-23 05:32:54

在具有两个自变量的简单线性回归模型中,如果发现变量之间存在很强的相关性,建议我们在模型中只包括其中一个。

我正在构建一个模型,其中因变量是午餐成本,自变量是Number of Class 1 Students Buying LunchNumber of Class 2 Students Buying Lunch但是,我发现两个自变量之间存在很强的相关性;购买午餐的 1 班学生人数增加时,购买午餐的 2 班学生人数也会增加。

在这种情况下,从模型中删除其中一个似乎并不理想,因为我的目标是知道这两个自变量将如何描述午餐成本我应该在这里做什么?谢谢!

2个回答

要问的第一个问题是:你真的需要关心吗?如果您只是想预测未来午餐的成本,那么这不是一个真正的问题。另一方面,如果您试图评估#1 和#2 学生对成本的相对贡献,那么共线性是一个更大的问题。

在行为良好的非共线模型中,我们可能会采用类似的模型y=β0+β1x1+β2x2并将其与我们的数据相匹配以找到β价值观。我们可能会发现β1=2β2=0.5,这表明增加一个单位x1导致 2 个单位的增加y,而类似的变化x2导致半个单位减少y. 然而,如果x1x2高度相关,这种解释就在窗外。

假设我们拟合一个模型Y=β0+β1x1并发现β0=0β1=4.一切都很棒!现在我们做一些愚蠢的事情来代替这个模型Y=β0+β1x1+β2x2, 在哪里x1=x2(换句话说,x1x2完全相关)。

在这种情况下,我们可以从字面上选择任何一组{β1,β2}加起来为四个的​​值:(2,2)、(1,3)、(1003, -999) 等等:这些都是线上的所有点x+y=4(由此得名!)。这些都给你相同的预测,但根据你的选择,你会声称增加 1 个单位x1与 2、1 或 1003 个单位的增加相关联y,分别,这不可能都是正确的!这显然是一个极端的例子,但你可以想象类似的事情发生在xs相关性稍弱。

我也很想问你为什么按班级将学生分开——有理由认为#1 和#2 学生对午餐价格的贡献不同吗?也许你回归午餐成本〜学生总数的模型会更合适?

基于 2 类与 1 类的平均年龄(您假设)可能很重要这一事实,您可以尝试一个模型,其中响应是午餐成本,预测变量是

  1. 学生是在 1 级还是 2 级的一个因素
  2. 学生年龄

通过这种方式,您可以询问年龄是否重要,以及属于第 2 类(而不是作为基线的第 1 类)是否也很重要。