假设我有一个 2 类分类问题,其中类分别A & B具有10*N和N观察。
我很确定我的问题的答案取决于具体的分类问题和我的数据集的特征等。仍然可以对我的问题进行一般分析。?
我可以澄清的是,我有兴趣在两个课程中都有高召回率(“宏观平均召回率”);主要不是在少数类别中具有尽可能高的召回率,而是在不平衡的数据集分类问题中,例如垃圾邮件检测、金融欺诈检测或疾病检测。
因此,一般来说,为此训练我的模型是否更好:
1) A:10*N 次观察,B:N 次观察
2) A:5*N 次观察,B:N 次观察
3) A:N 个观测值,B:N 个观测值
我有一个印象,假设我们从一个平衡的数据集开始,那么你添加到一个类的数据越多越好,macro-average recall因为添加了新信息,但是在某一点之后,数据集变得如此不平衡,以至于模型在少数族裔可能会恶化,因此会macro-average recall下降。
我说得对吗?