我有一个不平衡的数据集 X。我将其拆分为数据和标签,然后对数据进行标准化。然后我使用 train_test_split 在训练数据和测试数据之间进行拆分,然后输出结果。
现在我想比较一下如果我使用 smote 对少数类进行上采样会得到什么,但我想保持比较有意义。为此,我保留与以前相同的测试数据,并将新的合成样本仅添加到训练数据中。我应该如何处理标准化?
我是不是该
- 简单地假设因为我使用了已经标准化的数据中的点,新的合成样本也将被标准化?因此只需将合成样本添加到训练数据中就可以了?(不接触测试数据)
- 从预先标准化的数据中创建合成样本,对合成样本进行标准化并将它们添加到训练数据中?(不接触测试数据)
- 从预先标准化的数据中创建合成样本,将它们添加到训练数据中,然后标准化整个集合?(不接触测试数据)
- 或者 ... ?
使用这三种技术我得到了非常不同的结果,获得有意义的结果和比较的最佳方法是什么?