如何确保我的 R^2 分数?

数据挖掘 机器学习 数据挖掘 scikit-学习
2022-02-16 19:04:49

我有一个包含 10 列和 158 行的数据集。我尝试预测我的测试数据集,它是 1 列,158 行。

我进行了交叉验证、网格搜索并使用了 ElasticNet 算法。

同样在评估模型之前,我检查了我用于训练的 10 列与我尝试预测的其他 1 列之间的 pearson 相关性。相关性不好,但是当我评估模型时,R^2 得分接近 0.98 。

我怎样才能确保这个分数是可信的?因为我没想到会有这样的R^2。这太高了,超出了我的预期。

提前致谢。

2个回答

R2显示了自变量描述了您的目的变量的哪些变化。因此,它们的协同作用可以为您提供比它们的相关性更好的答案。更好的使用R2adjusted. 查看变量的 p 值并考虑它们的实际相关性。它们在现实生活中重要吗?如果他们有任何足够的关系,那么你的回归是正确的。

希望它会有所帮助。

尝试回归诊断。有几种方法可以帮助您理解数据和模型。试试这个链接,转到资源选项卡并下载第 6 章 - 诊断线性和广义线性模型中的问题。代码在 R 中。但是您可以找到代码的 python 等效项。