学生化残差分布

机器算法验证 回归 t检验 t分布
2022-04-19 05:16:51

我在回归中读到k回归变量,对应于某个系数的 t 统计量遵循t(nk)分配。然而,后来我读到学生化残差遵循t(nk1)分配。怎么会失去额外的自由度:这不也只是基于常规的 t 统计量吗?

1个回答

在我看来,这里有两种可能的解释:

  1. 外部学生化残差基于删除了一个观察的数据,这可能是单自由度损失的原因。

  2. 实际上指的是不同书籍的不一致是回归变量的数量,那么正确的自由度是。另一方面,如果是回归的数量系数(通常是回归器的数量加一,用于截距),那么正确的自由度是k"knk1knk.

注意:一般情况下,学生化残差的分布不取决于模型中是否存在虚拟变量。为了清楚起见,让回归模型为,其中,其中是观察数,是回归数。设计矩阵可以包含连续变量、虚拟变量和/或两者。在这个通用框架中,内部学生化残差定义为 其中残差,Y=Xβ+ϵXRn×(k+1)nkX

ri=eiMSE(1hii)
eiithH=(hij)=(XX)XY是所谓的“帽子”矩阵。内部学生化残差服从分布,因为不是独立的。teiMSE

外部学生化残差定义为 其中是回归模型拟合的均方误差观察已删除。在这种情况下,是独立的,可以证明,而损失了额外的一个自由度

ti=eiMSE(i)(1hii)
MSE(i)itheiMSE(i)titnk2i

我希望这能让它更清楚。因此,要了解您的情况下的自由度,您应该将设计矩阵视为一个整体,而不是分成两部分 - 一个具有连续预测变量,另一个具有虚拟变量。一旦你这样做了,找出问题中的学生化残差是外部学生化的还是内部学生化的。然后应用上面的。