数据挖掘 - 如何确保我的 R^2 分数？ - 吾爱随笔录

数据挖掘机器学习数据挖掘 scikit-学习

2022-02-16 19:04:49

我有一个包含 10 列和 158 行的数据集。我尝试预测我的测试数据集，它是 1 列，158 行。

我进行了交叉验证、网格搜索并使用了 ElasticNet 算法。

同样在评估模型之前，我检查了我用于训练的 10 列与我尝试预测的其他 1 列之间的 pearson 相关性。相关性不好，但是当我评估模型时，R^2 得分接近 0.98 。

我怎样才能确保这个分数是可信的？因为我没想到会有这样的R^2。这太高了，超出了我的预期。

提前致谢。

2个回答

$R^2$ 显示了自变量描述了您的目的变量的哪些变化。因此，它们的协同作用可以为您提供比它们的相关性更好的答案。更好的使用 $R^2 adjusted$ . 查看变量的 p 值并考虑它们的实际相关性。它们在现实生活中重要吗？如果他们有任何足够的关系，那么你的回归是正确的。

希望它会有所帮助。

尝试回归诊断。有几种方法可以帮助您理解数据和模型。试试这个链接，转到资源选项卡并下载第 6 章 - 诊断线性和广义线性模型中的问题。代码在 R 中。但是您可以找到代码的 python 等效项。

其它你可能感兴趣的问题