背景:简单线性回归、截距和斜率
关于这个问题,我有 2 个问题。
- 为什么要划分RSS?
- 为什么除数应该是, 不是或者?
背景:简单线性回归、截距和斜率
关于这个问题,我有 2 个问题。
原因是试图获得回归中潜在误差方差的无偏估计。在具有正态误差项的简单线性回归中,可以证明:
也就是说,在正态分布误差的标准假设下,残差平方和具有卡方分布自由程度。(这称为残差自由度。)这种分布结果的一个结果是残差平方和具有期望值. 从这个结果可以看出,对于较大的数据集,残差平方和往往会更大(即,它是) 并且它不是误差方差的有用估计量。
误差方差的无偏估计:为了得到误差方差的无偏估计,我们除以残差自由度得到残差均方:
该统计数据具有预期值,因此它为回归中的误差方差提供了一个无偏估计量。对应的统计给出一个估计量,即误差项的标准差。(请注意,后者不是无偏的,因为方差的无偏估计会导致标准偏差的有偏估计。)
扩展到多元回归:这个结果很容易扩展到多元回归(使用截距项和解释变量)我们有:
在这种情况下,回归均方(估计误差方差)为:
这种一般分布结果的证明依赖于与正态分布的二次形式相关的材料,这超出了统计学入门课程中通常介绍的数学水平。有关这些结果的推导的信息,您可以查阅有关线性回归的高级文本。
在线性回归中,如果您正在观察单个预测变量与其响应之间的关系,则方程的形式为
这里,是响应变量和是预测变量;和是需要找到的系数。现在我们有两个值要找到,所以我们的自由度是.
自由度是选择值的自由度,例如,如果您想每天穿不同的领带,而您总共有 7 条领带,那么您可以在第一天自由选择任何领带,但是这种自由度每天都会减少,直到最后一天,当你无法选择领带,也没有选择它的自由时。