我是这个东西的新手,所以如果我的问题很愚蠢,我很抱歉~
我需要帮助了解 X_train 和 X_test 之间的数据泄漏是什么以及它发生的确切时间。我目前正在使用 KNN imputer 填充缺失值的数据集。我需要缩放数据以进行 knn 插补,并且在插补过程之后进行训练-测试-拆分并应用机器学习模型。我读到在缩放期间可能会发生数据泄漏,因此我们应该在拆分后缩放,fit_transform 训练集,并且只转换测试集。我不确定在我的情况下这将如何工作,因为我正在缩放数据以能够估算缺失值,并且我稍后实际上到达了训练-测试-拆分阶段。我应该以我做事的方式担心数据泄露吗?
这是代码:
虽然在这里我在插补后立即进行拆分 + 应用 DT 算法,但我还有其他步骤,例如特征选择,所以直到很久以后我才会到达训练-测试-拆分和决策树部分。
