我正在对具有非常严重的类不平衡的数据集进行二元逻辑回归。第 1 类仅占数据的 1%。当我在没有类权重的情况下训练逻辑回归器时,我得到的 ROC AUC 得分为 0.6269。这是体面的。然而,当我看到我的混淆矩阵时,我发现我的模型根本没有预测到任何 1。那为什么我的 AUC 这么高?我认为 AUC 是针对这种情况的一个很好的衡量标准。
Confusion matrix
Predicted 0 All
True
0 32109 32109
1 1223 1223
All 33332 33332
我知道混淆矩阵使概率阈值为 0.5,那么分数是否表明存在某个阈值,哪个模型会提供更高的召回率?我怎样才能得到这个阈值?
Class precision recall f1-score support
0 0.96 1.00 0.98 32109
1 0.00 0.00 0.00 1223
我只关心 1 类的精度和召回率。