我正在使用一个包含 4 个类的小型私有数据集(超过 192 个样本)。为了进行任何分类,预处理步骤是微不足道的。在特征选择和提取技术中,我决定应用过采样(SMOTE)。这是我所做的:
- 使用整个数据集(原始 192 个样本):
- 使用 SMOTE 为每个类创建合成样本,所以我每类总共得到 500 个样本(总共 2000 个)
我对这个过程有很大的怀疑,因为当我应用 SMOTE 时,我使用最简单的模型(例如 15 神经元 MLP)获得了非常高的准确率(在某些情况下甚至 100%)。所以,我有一些问题要断言我的实验的正确性:
是否可以对整个数据集进行过采样,或者我应该只在训练数据中应用 SMOTE(请记住,这将留下很少的样本进行测试)?
SMOTE 最初用于处理不平衡的数据集,为样本较少的类创建样本。可以使用它为所有类生成样本以扩大整个数据集吗?