机器算法验证 - 学生化残差分布 - 吾爱随笔录

学生化残差分布

机器算法验证回归 t检验 t分布

2022-04-19 05:16:51

我在回归中读到 $k$ 回归变量，对应于某个系数的 t 统计量遵循 $t(n-k)$ 分配。然而，后来我读到学生化残差遵循 $t(n-k-1)$ 分配。怎么会失去额外的自由度：这不也只是基于常规的 t 统计量吗？

1个回答

在我看来，这里有两种可能的解释：

外部学生化残差基于删除了一个观察的数据，这可能是单自由度损失的原因。
实际上指的是不同书籍的不一致是回归变量的数量，那么正确的自由度是。另一方面，如果是回归的数量系数（通常是回归器的数量加一，用于截距），那么正确的自由度是 $``k"$ $k$ $n-k-1$ $k$ $n-k.$

注意：一般情况下，学生化残差的分布不取决于模型中是否存在虚拟变量。为了清楚起见，让回归模型为，其中，其中是观察数，是回归数。设计矩阵可以包含连续变量、虚拟变量和/或两者。在这个通用框架中，内部学生化残差定义为其中是残差， $Y=X\beta +\epsilon$ $X \in R^{n \times (k+1)}$ $n$ $k$ $X$

r_{i} = \frac{e_{i}}{M S E (1 - h_{i i})}

$r_i = \frac{e_i}{MSE(1-h_{ii})}$

e_{i}

$e_i$

i^{t h}

$i^{th}$

H = (h_{i j}) = (X^{'} X)^{-} X^{'} Y

$H=(h_{ij})=(X'X)^-X'Y$ 是所谓的“帽子”矩阵。内部学生化残差不服从分布，因为和不是独立的。

t

$t$

e_{i}

$e_i$

M S E

$MSE$

外部学生化残差定义为其中是回归模型拟合的均方误差观察已删除。在这种情况下，和是独立的，可以证明，而损失了额外的一个自由度。

t_{i} = \frac{e_{i}}{M S E_{(i)} (1 - h_{i i})}

$t_i = \frac{e_i}{MSE_{(i)}(1-h_{ii})}$

M S E_{(i)}

$MSE_{(i)}$

i^{t h}

$i^{th}$

e_{i}

$e_i$

M S E_{(i)}

$MSE_{(i)}$

t_{i} \sim t_{n - k - 2}

$t_i \sim t_{n-k-2}$

i

$i$

我希望这能让它更清楚。因此，要了解您的情况下的自由度，您应该将设计矩阵视为一个整体，而不是分成两部分 - 一个具有连续预测变量，另一个具有虚拟变量。一旦你这样做了，找出问题中的学生化残差是外部学生化的还是内部学生化的。然后应用上面的。

其它你可能感兴趣的问题

上一篇在 k 个独立案例中观察到至少一个零的泊松概率下一篇R 和 SPSS 之间 PCA 负载的差异