为什么在线性模型中添加更多项总是会增加 r 平方值?

机器算法验证 回归 方差分析 线性模型 r平方 平方和
2022-03-29 20:43:25

许多统计教科书指出,在线性模型中添加更多项总是会减少平方和,进而增加 r 平方值。这导致使用调整后的 r 平方。但是是否有可能在线性模型中添加一个项会使平方和减少零,进而保持 r 平方值完全相同?

2个回答

当然,这可能会发生:如果新预测变量包含在模型中已经存在的预测变量的线性跨度中。

从几何角度考虑:您的新“拟合子空间”(预测变量的可能线性组合)与旧的完全相同,因此最佳拟合和平方和不变。

但是,这只是不变的充分条件,不是必要条件。考虑如下三点:R2

xx <- c(-1,0,1)
yy <- c(1,-2,1)
plot(xx,yy,pch=19)
abline(h=0)
abline(v=0)

model.1 <- lm(yy~1)
abline(model.1,col="red",lty=2)
summary(model.1)

model.2 <- lm(yy~xx)
abline(model.2,col="green",lty=3)
summary(model.2)

例子

如果我们将xx预测变量添加到简单均值模型中,我们会得到相同的拟合和相同的这种结构也应该可以用于更大的模型。R2

在线性模型中添加更多项可以使 r 平方值保持完全相同或增加 r 平方值。称为R 平方的非递减性质

为了证明这个属性,首先回想一下最小二乘线性回归的目标是

minSSE=mini=1n(ei)2=minβi=1n(yiβ0β1xi,1β2xi,2βpxi,p)2
R平方是
R2=1SSESST
当包含额外变量时,最小二乘线性回归的目标变为
minSSE=minβi=1n(yiβ0β1xi,1β2xi,2βpxi,pβp+1xi,p+1)2
如果额外的估计系数(βp+1) 为零,则 SSE 和 R 平方将保持不变。或者如果额外的估计系数(βp+1) 取非零值,SSE 将减少。在这种情况下,R 平方会增加,因为它提高了拟合的质量。