我有一个包含 4712 条记录的数据集。标签 1 是 1558 (33%),标签 0 是 3154 (67%)
a) 目前,当我按原样运行模型和分析时(没有采样技术),我得到F1-score了71-77. 我选择F1-score并AUC score作为指标,因为我的数据集是不平衡的。(至少这就是我看到班级比例时的感受)。对于基于树的模型,我的 AUC 也在 80-83 之间。下面给出了具有不平衡数据的模型的屏幕截图
b)当我对多数类进行抽样不足时,我得到了所有指标,例如F1-score/ accuracy/AUC以上80但小于 85
下面的截图
现在我不确定我应该考虑哪一个?我知道这都是关于权衡的。
我的目标是避免/最小化错误分类
根据您在 ML 项目中的经验,你们有什么建议?
有人可以告诉我为什么要选择一个而不是另一个吗?

