要问的第一个问题是:你真的需要关心吗?如果您只是想预测未来午餐的成本,那么这不是一个真正的问题。另一方面,如果您试图评估#1 和#2 学生对成本的相对贡献,那么共线性是一个更大的问题。
在行为良好的非共线模型中,我们可能会采用类似的模型y=β0+β1⋅x1+β2⋅x2并将其与我们的数据相匹配以找到β价值观。我们可能会发现β1=2和β2=−0.5,这表明增加一个单位x1导致 2 个单位的增加y,而类似的变化x2导致半个单位减少y. 然而,如果x1和x2高度相关,这种解释就在窗外。
假设我们拟合一个模型Y=β0+β1⋅x1并发现β0=0和β1=4.一切都很棒!现在我们做一些愚蠢的事情来代替这个模型Y=β0+β1⋅x1+β2⋅x2, 在哪里x1=x2(换句话说,x1和x2完全相关)。
在这种情况下,我们可以从字面上选择任何一组{β1,β2}加起来为四个的值:(2,2)、(1,3)、(1003, -999) 等等:这些都是线上的所有点x+y=4(由此得名!)。这些都给你相同的预测,但根据你的选择,你会声称增加 1 个单位x1与 2、1 或 1003 个单位的增加相关联y,分别,这不可能都是正确的!这显然是一个极端的例子,但你可以想象类似的事情发生在xs相关性稍弱。
我也很想问你为什么按班级将学生分开——有理由认为#1 和#2 学生对午餐价格的贡献不同吗?也许你回归午餐成本〜学生总数的模型会更合适?