数据挖掘 - 需要帮助了解数据泄漏 - 吾爱随笔录

我是这个东西的新手，所以如果我的问题很愚蠢，我很抱歉~

我需要帮助了解 X_train 和 X_test 之间的数据泄漏是什么以及它发生的确切时间。我目前正在使用 KNN imputer 填充缺失值的数据集。我需要缩放数据以进行 knn 插补，并且在插补过程之后进行训练-测试-拆分并应用机器学习模型。我读到在缩放期间可能会发生数据泄漏，因此我们应该在拆分后缩放，fit_transform 训练集，并且只转换测试集。我不确定在我的情况下这将如何工作，因为我正在缩放数据以能够估算缺失值，并且我稍后实际上到达了训练-测试-拆分阶段。我应该以我做事的方式担心数据泄露吗？

这是代码：

虽然在这里我在插补后立即进行拆分 + 应用 DT 算法，但我还有其他步骤，例如特征选择，所以直到很久以后我才会到达训练-测试-拆分和决策树部分。