假设我有 2 节课。一类有 16 个样本,另一类有 435 个样本。用 16 个样本对类进行过度抽样以获得 435 个样本是否合理?还是用 435 个样本对类进行欠采样更好?如果是这样,进行欠采样后的样本数应该是多少?
过采样的允许限度是多少?
数据挖掘
机器学习
分类
数据集
阶级失衡
采样
2022-02-03 15:29:46
1个回答
这取决于您的数据的性质。如果您可以使用任何给定的过采样方法(例如 SMOTE 或 ADASYN)有效地模拟 435 个样本,那么我会说过采样会更好。因为它将为各种场景提供数据。但是,如果无法进行精确复制,并且如果复制了模型可能存在固有问题,那么您应该选择欠采样。
欠采样的一个很好的例子是,例如,如果您正在进行一项科学实验,并且您拥有的数据仅限于几个场景,而其他数据尚未完全观察到,您会选择欠采样。
过采样是相反的情况,您可以根据某些参数有效地模拟各种类的数据,并且生成的数据可以模拟实际数据和场景,那么您应该过采样。