数据挖掘 - 混淆矩阵 - 一类零值 - 吾爱随笔录

数据挖掘 r 随机森林混淆矩阵

2022-02-13 21:50:15

我在具有 645 条记录和 12 个特征（由 KBest 方法选择）的数据集上应用随机森林分类器。该数据集包含一个具有 4 个可能值 (1..4) 的类。当我绘制混淆矩阵时，我得到了这个

我的观点是关于第 2 课。正如你所指出的，学习模型不适用于这堂课。最初，大小可能是个问题，但类 2 的大小与类 2 的大小相似。我检查了每个特征的平均值，但我没有发现类 2 和其他类之间有任何异常。

有人知道该模型听起来太糟糕而无法仅使用 2 级的原因吗？

1个回答

很可能这些特征对第 2 类的区分度不够：第 2 类数据点与其他一些类混合在一起，模型无法区分它们，因此它预测了最可能的类。

为了更准确地调查，第一步是查看混淆矩阵：查看类 2 实例与哪些其他类混淆。然后，您可以尝试训练单个决策树并观察模型使用哪些特征来区分其他类。很可能没有一个特征足以识别第 2 类。如果您想更进一步，可以尝试简化问题并仅使用第 2 类的实例而不是其他类的实例来训练模型。

其它你可能感兴趣的问题