数据挖掘 - 稀有事件建模表现不佳 - 吾爱随笔录

我正在研究稀有事件分类问题。我将 95% 的数据作为多数类，将 5% 的数据作为少数类。我使用分类树算法。我正在使用混淆矩阵来衡量模型的优劣。

由于我的少数类只有总数据的 5%，即使我对少数类的预测性能接近 70%，错误的总数也很高。

例如，这是我的混淆矩阵。0 1 0 213812 7008 1 29083 16877

虽然 Minority 类（class 1）正确预测了 16877 次（70%，而误分类率仅为 30%，但与正确预测的 minotriy 类（16877）相比，误分类的绝对值非常高（29083）。这使得该解决方案对业务的可用性较低。

在这种罕见的事件建模中处理这类问题有什么想法吗？

温馨提示：在应用分类树之前，我已经使用 SMOTE 算法平衡了目标变量。

> rfDownsampled <- train(Class ~ ., data = training, + method = "rf", + ntree = 1500, + tuneLength = 5, + metric = "ROC", + trControl = ctrl, + ## Tell randomForest to sample by strata. Here, + ## that means within each class + strata = training$Class, + ## Now specify that the number of samples selected + ## within each class should be the same + sampsize = rep(nmin, 2))