为什么将 RSS 除以 n-2 得到 RSE?

机器算法验证 回归 残差 标准错误
2022-04-09 03:11:34

RSE=1n2RSS=1n2i=1n(yiyi^)2

背景:简单线性回归、截距和斜率

关于这个问题,我有 2 个问题。

  1. 为什么要划分RSS?
  2. 为什么除数应该是n2, 不是n或者n1?
2个回答

原因是试图获得回归中潜在误差方差的无偏估计。在具有正态误差项的简单线性回归中,可以证明:

RSS(x,Y)i=1n(YiY^i)σ2Chi-Sq(df=n2).

也就是说,在正态分布误差的标准假设下,残差平方和具有方分布n2自由程度。(这称为残差自由度。)这种分布结果的一个结果是残差平方和具有期望值E(RSS(x,Y))=σ2(n2). 从这个结果可以看出,对于较大的数据集,残差平方和往往会更大(即,它是n) 并且它不是误差方差的有用估计量。

误差方差的无偏估计:为了得到误差方差的无偏估计,我们除以残差自由度得到残差均方:

RMS(x,Y)RSS(x,Y)n2σ2Chi-Sq(df=n2)n2.

该统计数据具有预期值E(RMS(x,Y))=σ2,因此它为回归中的误差方差提供了一个无偏估计量。对应的统计RME=RMS给出一个估计量σ,即误差项的标准差。(请注意,后者不是无偏的,因为方差的无偏估计会导致标准偏差的有偏估计。)


扩展到多元回归:这个结果很容易扩展到多元回归(使用截距项和m解释变量)我们有:

RSS(x,Y)i=1n(YiY^i)σ2Chi-Sq(df=nm1).

在这种情况下,回归均方(估计误差方差)为:

RMS(x,Y)RSS(x,Y)nm1σ2Chi-Sq(df=nm1)nm1.

这种一般分布结果的证明依赖于与正态分布的二次形式相关的材料,这超出了统计学入门课程中通常介绍的数学水平。有关这些结果的推导的信息,您可以查阅有关线性回归的高级文本。

在线性回归中,如果您正在观察单个预测变量与其响应之间的关系,则方程的形式为

Y=b0+b1X.

这里,Y是响应变量和X是预测变量;b1b0是需要找到的系数。现在我们有两个值要找到,所以我们的自由度是n2.

自由度是选择值的自由度,例如,如果您想每天穿不同的领带,而您总共有 7 条领带,那么您可以在第一天自由选择任何领带,但是这种自由度每天都会减少,直到最后一天,当你无法选择领带,也没有选择它的自由时。