期望 OLS 回归中的残差呈正态分布的原因是什么?

机器算法验证 回归 最小二乘 残差 正态假设
2022-03-24 07:41:26

这里有很多类似的问题,但我还没有找到这个特定问题的答案。

资料来源:例如在https://peopleanalytics-regression-book.org/linear-reg-ols.html#norm-dist-assum中,作者(一位数学家)说:

在适当的模型中,我们期望我们的误差是随机的,因此我们期望我们的残差正态分布在足够数量的观察中。

然后作者继续申请qqnorm(newmodel$residuals)数据进行诊断。

如果你在 R ( plot(mymodel)) 中绘制一个模型,你会得到一堆诊断图,其中第二个是针对理论分位数绘制的标准化残差 - 所以基本相同。

但为什么?残差正态分布的原因是什么,而不仅仅是随机分布,根本没有公认的分布或其他分布?统计教科书认为这很明显 - 有人可以解释一下吗?

1个回答

那个作者在胡说八道。仅仅因为错误是随机的并不意味着如果您有很多错误,它们将是正态分布的。OLS 绝对不需要正态分布的残差;它的目标是“最小二乘”,并且最小化与估计值的偏差平方和绝不需要任何特定的残差分布。例如,参见当 OLS 残差不是正态分布时的回归,以及评论中链接的一些相关问题。

确实,如果基础误差服从正态分布,并且是独立同分布的,那么 OLS 估计量也是最大似然估计量。但这绝不能证明原帖中引用的作者声明是正确的。

编辑:有关更多信息,请阅读下面的@Glen_b 评论。