数据挖掘 - 线性回归寻找最佳拟合 - 吾爱随笔录

线性回归寻找最佳拟合

数据挖掘特征选择线性回归

2022-02-22 14:54:09

我正在尝试拟合具有明显目标的 LR 模型以找到最佳拟合。可以达到最低RSS的模型。

我有很多自变量，所以我决定你向后选择（我们从模型中的所有变量开始，并删除具有最大 p 值的变量 - 即统计上最不显着的变量。新的（p − 1)-变量模型拟合，p 值最大的变量被移除。此过程继续进行，直到达到停止规则。) 以拟合模型。

这是我的模型拟合的预览

在拟合我的模型后，我开始消除所有具有高 p 值的变量。

调整后的 R 平方和 RSE 在两种情况下几乎相同，表明几乎没有改善。

我应该如何进一步接近它？

3个回答

解决方案：残差图

什么是 R ²

R-squared 的定义相当简单。它是由线性模型解释的响应变量变异的百分比。

R ² = 解释变异 / 总变异

R ²始终介于 0 和 100% 之间：

0% 表示模型没有解释响应数据在其平均值附近的任何可变性。
100% 表示模型解释了响应数据在其平均值附近的所有可变性。

限制

R ²值有局限性。您不能使用 R ²来确定系数估计和预测是否有偏差，这就是您必须评估残差图的原因。

R ²并不表示回归模型是否能充分拟合您的数据。一个好的模型可以具有较低的 R ²值。另一方面，有偏差的模型可能具有较高的 R ²值！

解释残差图

残差是观察到的 y 值（来自散点图）和预测的 y 值（来自回归方程线）之间的差异。

残差图是在纵轴上显示残差，在横轴上显示自变量的图形。如果残差图中的点随机分布在水平轴周围，则线性回归模型适用于数据；否则，非线性模型更合适。

合身

不合适

无偏模型具有随机散布在零附近的残差。^{尽管 R 2}很高，但非随机残差模式表明拟合不佳。

高 R ²和不合适的示例

请参阅下面的拟合线图和残差图。它显示了半导体电子迁移率与真实实验数据密度的自然对数之间的关系。

这里的 R 平方是 98.5%。但是，请仔细观察回归线如何系统地超过和低估曲线上不同点的数据（偏差）。您还可以在残差与拟合图中看到模式，而不是您想要看到的随机性。这表明不合适。始终检查残差图！

来源和参考

Stattrek.com。（2010）。回归中的残差分析。[在线] 位于：https ://stattrek.com/regression/residual-analysis.aspx 。
罗伯茨，D. (2019)。残差 - MathBitsNotebook（A1 - CCSS 数学）。[在线] Mathbitsnotebook.com。可在：https ://mathbitsnotebook.com/Algebra1/StatisticsReg/ST2Residuals.html 获得。
课程。（2018 年）。使用可视化进行模型评估 - 模型开发 | 课程。[在线] 可在：https ://www.coursera.org/learn/data-analysis-with-python/lecture/istf4/model-evaluation-using-visualization [2020 年 1 月 9 日访问]。
Minitab 博客编辑器 (2013)。回归分析：我如何解释 R 平方和评估拟合优度？[在线] Minitab.com。可在：https ://blog.minitab.com/blog/adventures-in-statistics-2/regression-analysis-how-do-i-interpret-r-squared-and-assess-the-goodness-of-fit .
弗罗斯特，J. (2019)。吉姆弗罗斯特。[在线] Jim 的统计数据。可在：https ://statisticsbyjim.com/regression/interpret-r-squared-regression/ 获得。

‌ ‌ ‌

您应该在AIC上逐步选择这项工作并尝试不断改进它。在步骤选择中，您必须同时尝试（这两种方法都将向后和向前选择组合）。

一旦你得到最终模型的性能得到了提高。你可以尝试预测。然后通过改变截止值进一步提高准确率和 f1 分数。

如果您希望进一步提高性能，请选择 XGBOOST。

我认为您寻找“向前和向后逐步选择”和相关的模型选择技术。看看“统计学习简介”（第 244-251 页）。

这本书附带了R labs，所以你应该很容易应用任何你认为适合你的任务的东西。

特别是还可以看看 Lasso/Ridge：该技术能够“缩小”不重要的特征，因此在许多情况下可以增加拟合。

也看看GAM。它们是线性模型，但它们能够拟合如此高度非线性的数据。然而，鉴于这种方法，系数的解释有点令人生畏。

因此，如果您对可解释的系数感兴趣，您可以选择在模型中添加多项式（即平方项）或记录日志（以防所有观察结果都是正数）。

其它你可能感兴趣的问题

上一篇理解使用随机森林进行 5 倍训练的准确度图下一篇激活函数 vs If else 语句