混淆矩阵 - 一类零值

数据挖掘 r 随机森林 混淆矩阵
2022-02-13 21:50:15

我在具有 645 条记录和 12 个特征(由 KBest 方法选择)的数据集上应用随机森林分类器。该数据集包含一个具有 4 个可能值 (1..4) 的类。当我绘制混淆矩阵时,我得到了这个

在此处输入图像描述

我的观点是关于第 2 课。正如你所指出的,学习模型不适用于这堂课。最初,大小可能是个问题,但类 2 的大小与类 2 的大小相似。我检查了每个特征的平均值,但我没有发现类 2 和其他类之间有任何异常。

有人知道该模型听起来太糟糕而无法仅使用 2 级的原因吗?

1个回答

很可能这些特征对第 2 类的区分度不够:第 2 类数据点与其他一些类混合在一起,模型无法区分它们,因此它预测了最可能的类。

为了更准确地调查,第一步是查看混淆矩阵:查看类 2 实例与哪些其他类混淆。然后,您可以尝试训练单个决策树并观察模型使用哪些特征来区分其他类。很可能没有一个特征足以识别第 2 类。如果您想更进一步,可以尝试简化问题并仅使用第 2 类的实例而不是其他类的实例来训练模型。