SMOTE 技术的标准参数值是多少?

数据挖掘 数据集 阶级失衡 打击
2022-03-16 15:58:05

我正在研究一个包含 2 个类的不平衡类数据集(200 个样本),第一类有 50 个样本,第二个有 150 个样本。

我的问题:

  1. 当我在我的数据集上使用 SMOTE 技术时,我的总数据集样本将大于 200 或更小?
  2. SMOTE 技术是否有标准参数值?
1个回答

首先,如果你所有的变量都是数字的,那么你可以 SMOTE;否则你应该使用 SMOTENC。

答案: 1- 你的班级是 150-50,然后 SMOTE 给你 150-150。所以,是的;您的总数据集样本将是 300。

2-您可以使用默认参数;它适用于大多数问题。但是,您可以使用 random_state 和 k_neighbors。所有参数已在此处解释:imblearn.over_sampling.SMOTE