我正在研究一个包含 2 个类的不平衡类数据集(200 个样本),第一类有 50 个样本,第二个有 150 个样本。
我的问题:
- 当我在我的数据集上使用 SMOTE 技术时,我的总数据集样本将大于 200 或更小?
- SMOTE 技术是否有标准参数值?
我正在研究一个包含 2 个类的不平衡类数据集(200 个样本),第一类有 50 个样本,第二个有 150 个样本。
我的问题:
首先,如果你所有的变量都是数字的,那么你可以 SMOTE;否则你应该使用 SMOTENC。
答案: 1- 你的班级是 150-50,然后 SMOTE 给你 150-150。所以,是的;您的总数据集样本将是 300。
2-您可以使用默认参数;它适用于大多数问题。但是,您可以使用 random_state 和 k_neighbors。所有参数已在此处解释:imblearn.over_sampling.SMOTE