在执行 SMOTE 平衡类数据时,两个类的比例应该是多少?例如,如果我们有 100 个实例,什么 (%) 应该是 Yes 类,什么应该是 No 类?
数据集的类平衡
数据挖掘
分类
阶级失衡
打击
2022-03-11 20:22:43
1个回答
正如我在评论中提到的,没有经验法则。一个人必须做很多实验。
根据您拥有的数据量,使少数类与多数类相等(50-50)可能会误导模型。
您也可以在实验期间尝试ADASYN。
ADASYN是 SMOTE 的改进版本。它的作用与 SMOTE 相同,只是略有改进。创建这些样本后,它会向这些点添加一个随机的小值,从而使其更加逼真。换句话说,不是所有样本都与父样本线性相关,而是它们有更多的方差,即它们有点分散。
您可以在此处阅读有关实施的信息
其它你可能感兴趣的问题