线性回归寻找最佳拟合
数据挖掘
特征选择
线性回归
2022-02-22 14:54:09
3个回答
解决方案:残差图
什么是 R 2
R-squared 的定义相当简单。它是由线性模型解释的响应变量变异的百分比。
R 2 = 解释变异 / 总变异
R 2始终介于 0 和 100% 之间:
- 0% 表示模型没有解释响应数据在其平均值附近的任何可变性。
- 100% 表示模型解释了响应数据在其平均值附近的所有可变性。
限制
R 2值有局限性。您不能使用 R 2来确定系数估计和预测是否有偏差,这就是您必须评估残差图的原因。
R 2并不表示回归模型是否能充分拟合您的数据。一个好的模型可以具有较低的 R 2值。另一方面,有偏差的模型可能具有较高的 R 2值!
解释残差图
残差是观察到的 y 值(来自散点图)和预测的 y 值(来自回归方程线)之间的差异。
残差图是在纵轴上显示残差,在横轴上显示自变量的图形。如果残差图中的点随机分布在水平轴周围,则线性回归模型适用于数据;否则,非线性模型更合适。
合身
不合适
无偏模型具有随机散布在零附近的残差。尽管 R 2很高,但非随机残差模式表明拟合不佳。
高 R 2和不合适的示例
请参阅下面的拟合线图和残差图。它显示了半导体电子迁移率与真实实验数据密度的自然对数之间的关系。
这里的 R 平方是 98.5%。但是,请仔细观察回归线如何系统地超过和低估曲线上不同点的数据(偏差)。您还可以在残差与拟合图中看到模式,而不是您想要看到的随机性。这表明不合适。始终检查残差图!
来源和参考
- Stattrek.com。(2010)。回归中的残差分析。[在线] 位于:https ://stattrek.com/regression/residual-analysis.aspx 。
- 罗伯茨,D. (2019)。残差 - MathBitsNotebook(A1 - CCSS 数学)。[在线] Mathbitsnotebook.com。可在:https ://mathbitsnotebook.com/Algebra1/StatisticsReg/ST2Residuals.html 获得。
- 课程。(2018 年)。使用可视化进行模型评估 - 模型开发 | 课程。[在线] 可在:https ://www.coursera.org/learn/data-analysis-with-python/lecture/istf4/model-evaluation-using-visualization [2020 年 1 月 9 日访问]。
- Minitab 博客编辑器 (2013)。回归分析:我如何解释 R 平方和评估拟合优度?[在线] Minitab.com。可在:https ://blog.minitab.com/blog/adventures-in-statistics-2/regression-analysis-how-do-i-interpret-r-squared-and-assess-the-goodness-of-fit .
- 弗罗斯特,J. (2019)。吉姆弗罗斯特。[在线] Jim 的统计数据。可在:https ://statisticsbyjim.com/regression/interpret-r-squared-regression/ 获得。
您应该在AIC上逐步选择这项工作并尝试不断改进它。在步骤选择中,您必须同时尝试(这两种方法都将向后和向前选择组合)。
一旦你得到最终模型的性能得到了提高。你可以尝试预测。然后通过改变截止值进一步提高准确率和 f1 分数。
如果您希望进一步提高性能,请选择 XGBOOST。
其它你可能感兴趣的问题




