在诊断潜在有影响的数据点方面,“内部学生化残差”比原始估计残差有什么优势?

机器算法验证 残差
2022-03-14 06:34:51

我问这个的原因是因为内部学生化残差似乎与原始估计残差具有相同的模式。如果有人可以提供解释,那就太好了。

2个回答

假设回归模型与设计矩阵(一个列后跟你的预测),预测(其中是“帽子矩阵”),残差回归模型假设真实误差都具有相同的方差(同方差):y=Xβ+ϵX1y^=X(XX)1Xy=HyHe=yy^ϵ

同方差

残差的协方差矩阵是这意味着原始残差具有不同的方差 - 矩阵的对角线的对角线元素是帽子值V(e)=σ2(IH)eiσ2(1hii)σ2(IH)Hhii

因此,真正标准化的方差为 1 的残差是问题是误差方差是未知的,并且内部/外部学生化残差是由特定的估计选择导致的e/(σ1hii)σ e/(σ^1hii)σ^

由于即使是同方差的,原始残差也应该是异方差的,因此在理论上,与标准化或学生化残差相比,原始残差不太适合诊断具有同方差假设的问题。ϵ

你在什么类型的数据上做你的测试图?当所有假设都成立(或接近)时,我预计原始残差和学生化残差之间不会有太大差异,主要优势是当存在高度影响的点时。考虑这个(模拟的)数据,它具有正的线性趋势和高度影响的异常值:

在此处输入图像描述

这是拟合值与原始残差的关系图:

在此处输入图像描述

请注意,我们影响点的残差值比其余点的最小和最大残差更接近 0(它不在 3 个最极端的原始残差中)。

现在这是带有标准化(内部学生化)残差的图:

在此处输入图像描述

在该图中,标准化残差很突出,因为它的影响已被考虑在内。

在这个简单的例子中很容易看出发生了什么,但是如果我们有超过 1变量和一个非常有影响力的点,但在二维图中并不罕见?从原始残差图中不会很明显,但学生化残差会显示残差更加极端。x