混淆矩阵与 AUC 与随机森林混淆

数据挖掘 机器学习 随机森林 混淆矩阵
2022-03-03 04:04:18

我目前正在用 1000 棵树训练一个随机森林分类器,并收到以下混淆矩阵。我已经将训练集与测试集拆分为 75/25,但不知道为什么我看到如此低的真负分?这是一个二元分类问题,我的数据集包含 0 类的 88%,而 1 类代表总内容的 12%。我尝试过使用 class_weights 进行试验,但我无法获得高于 6% 的真负分。我错过了什么,因为它似乎通过了大多数测试,包括交叉验证 > .90 等。

在此处输入图像描述

1个回答

从您的混淆矩阵来看,您的班级不平衡实际上看起来过于偏爱正面班级(90.04% 到 9.96%)。因为您的数据中存在如此极端的类别不平衡,所以您的随机森林可能只是将几乎所有内容都归类为正类并称其为一天。

要解决此问题,您需要对较大的类进行下采样或对较小的类进行上采样以接近 50/50 分割。否则,您可能最终会得到一个严重高估正类的分类器。

当您拆分数据时,您还可以尝试按标签进行分层(以便在您的训练和测试集中存在相同比例的正负类)。