我有一个包含 10 列和 158 行的数据集。我尝试预测我的测试数据集,它是 1 列,158 行。
我进行了交叉验证、网格搜索并使用了 ElasticNet 算法。
同样在评估模型之前,我检查了我用于训练的 10 列与我尝试预测的其他 1 列之间的 pearson 相关性。相关性不好,但是当我评估模型时,R^2 得分接近 0.98 。
我怎样才能确保这个分数是可信的?因为我没想到会有这样的R^2。这太高了,超出了我的预期。
提前致谢。
我有一个包含 10 列和 158 行的数据集。我尝试预测我的测试数据集,它是 1 列,158 行。
我进行了交叉验证、网格搜索并使用了 ElasticNet 算法。
同样在评估模型之前,我检查了我用于训练的 10 列与我尝试预测的其他 1 列之间的 pearson 相关性。相关性不好,但是当我评估模型时,R^2 得分接近 0.98 。
我怎样才能确保这个分数是可信的?因为我没想到会有这样的R^2。这太高了,超出了我的预期。
提前致谢。
显示了自变量描述了您的目的变量的哪些变化。因此,它们的协同作用可以为您提供比它们的相关性更好的答案。更好的使用. 查看变量的 p 值并考虑它们的实际相关性。它们在现实生活中重要吗?如果他们有任何足够的关系,那么你的回归是正确的。
希望它会有所帮助。
尝试回归诊断。有几种方法可以帮助您理解数据和模型。试试这个链接,转到资源选项卡并下载第 6 章 - 诊断线性和广义线性模型中的问题。代码在 R 中。但是您可以找到代码的 python 等效项。