数据挖掘 - 输入变量微不足道，但 R2 较高 - 吾爱随笔录

输入变量微不足道，但 R2 较高

数据挖掘回归线性回归

2022-02-27 18:12:33

具有单个输入变量 x 且 x 不显着但模型具有高 R2 的线性回归模型可以吗？

这可以存在吗？如果有，原因是什么？

1个回答

这可能发生，但仅限于非常少量的数据。具有三个数据点的示例（在 R 中）：

x <- c(0,1,2)
y <- c(-0.1,0.7,1.2)
summary(lm(y ~ x))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  -0.0500     0.1118  -0.447   0.7323  
x             0.6500     0.0866   7.506   0.0843 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1225 on 1 degrees of freedom
Multiple R-squared:  0.9826,    Adjusted R-squared:  0.9651 
F-statistic: 56.33 on 1 and 1 DF,  p-value: 0.08432

请注意，R 平方非常高，但x参数不是 95% 显着。

对于大量数据，如果相应的参数不显着，就不可能有非常高的 R 平方参数。

其它你可能感兴趣的问题

上一篇在 sklearn 的 LogisticRegression 上使用 L1 正则化进行特征选择下一篇用算法标记数据集