我对数据科学很陌生。我正在尝试使用逻辑回归来预测我的目标(1 或 0)。但问题是当我使用热图来查找列和目标变量之间的相关性时,我得到的最高值约为 0.17(满分 1)。所以在我看来,我的目标变量与数据集中的任何列都不相关。我的问题是,有这样的目标变量是否正常?我能做些什么来增加目标变量和其他列之间的相关性?
当目标变量与数据集中的任何自变量都不相关时该怎么办?
数据挖掘
数据集
可视化
数据清理
数据科学模型
2022-03-11 02:09:28
1个回答
如果您的预测变量与结果无关,那么您应该无法构建在样本外有效的模型。这是机器学习的一个功能,而不是错误。例如,您是否考虑过我在早上设置闹钟的时间来预测您早餐是否吃麦片?
然而,特征可能与结果只有很小的关系,并且结合起来非常具有预测性。也许我的警报不会影响你的早餐选择,但有很多因素会影响,每个因素都可能无法预测结果,但综合考虑或者可能非常具有预测性。在极端情况下,考虑 MNIST 数字的单个像素。中间像素本身是否具有区分数字的能力?其他像素呢?每个单独的像素都不能很好地预测数字,但所有结合导致强劲的表现。
其它你可能感兴趣的问题