哪个更好:不平衡数据中的“N”或平衡数据中的“N+3”的 F1 分数?

数据挖掘 机器学习 深度学习 分类 特征选择 机器学习模型
2022-02-17 15:22:54

我有一个包含 4712 条记录的数据集。标签 1 是 1558 (33%),标签 0 是 3154 (67%)

a) 目前,当我按原样运行模型和分析时(没有采样技术),我得到F1-score71-77. 我选择F1-scoreAUC score作为指标,因为我的数据集是不平衡的。(至少这就是我看到班级比例时的感受)。对于基于树的模型,我的 AUC 也在 80-83 之间。下面给出了具有不平衡数据的模型的屏幕截图

在此处输入图像描述

b)当我对多数类进行抽样不足时,我得到了所有指标,例如F1-score/ accuracy/AUC以上80但小于 85

下面的截图

在此处输入图像描述

现在我不确定我应该考虑哪一个?我知道这都是关于权衡的。

我的目标是避免/最小化错误分类

根据您在 ML 项目中的经验,你们有什么建议?

有人可以告诉我为什么要选择一个而不是另一个吗?

1个回答

第二。

为什么?你说你的目标是最小化错误分类,这相当于最大化 F1 分数,当你对多数类进行下采样时,你可以在不平衡的情况下实现这一点(最大化的一种方法)

潜在陷阱:

可能是您刚刚摆脱了大多数班级中的一些重要信息,而您对剩下的内容过度拟合。在某些情况下,1500 个数据样本就足够了,但我可能是它没有足够的信息。我宁愿建议对较小的类进行上采样,例如使用ADASYN、SMOTe、knnSMOT E 等...只有您可以通过了解有关数据集的一些元信息、质量规则来回答这个问题,您是否期待巨大的协变量偏移,丢弃的数据在分布上真的有那么不同吗?等等......

然后进行分析。如果您应该始终要求的一件事是多样化且信息丰富的数据集,那么更多的数据(几乎)总是会击败更好的算法。