总体准确度为 62% 的朴素贝叶斯的 Kohen Kappa 系数优于准确度为 98% 的逻辑回归?

数据挖掘 机器学习 逻辑回归 阶级失衡 朴素贝叶斯分类器
2022-02-11 01:00:48

我一直在尝试评估我在消防系统数据集上使用的模型,数据集存在巨大的不平衡。大多数模型未能正确预测任何真阳性,但朴素贝叶斯设法做到这一点,但假阳性率非常高。我已经对混淆矩阵和分类报告进行了实验,如下所示。两个数据集使用相同的数据集和训练/测试拆分

 Naive Bayes Confusion Matrix and Classification Report

     [[TN=732 FP=448]
     [FN=2   TP=15]]


          precision    recall  f1-score   support

       0       1.00      0.62      0.76      1180
       1       0.03      0.88      0.06        17

accuracy                               0.62      1197
macro avg          0.51      0.75      0.41      1197
weighted avg       0.98      0.62      0.75      1197


Logistic Regression Confusion Matrix and Classification Report


     [[TN=1180 FP=0]
     [FN=17   TP=0]]


          precision    recall  f1-score   support

       0       0.99      1.00      0.99      1180
       1       0.00      0.00      0.00        17

accuracy                              0.98      1197
macro avg          0.49      0.50     0.50      1197
weighted avg       0.97      0.99     0.98      1197

然而,我得到了这些模型的 Kohen Kappa 系数,我对如何解释这些值感到很困惑。请在下面找到值

Logistic Regression=0.0
Naive Bayes=0.03

这些值表明非常轻微的一致性。但是为什么朴素贝叶斯的值略好于逻辑回归呢?

1个回答

逻辑回归仅预测一个类别(在本例中为负类别)!由于数据的高度不平衡,该模型给出了很高的准确度分数。然而,这个指标对于不平衡的数据集并不可靠像 Cohen 的 Kappa 这样更合适的指标会惩罚这种行为。

另一方面,朴素贝叶斯试图预测这两个类别。它以这种方式错过了更多的预测,但它的 Kappa 更高。