我正在研究稀有事件分类问题。我将 95% 的数据作为多数类,将 5% 的数据作为少数类。我使用分类树算法。我正在使用混淆矩阵来衡量模型的优劣。
由于我的少数类只有总数据的 5%,即使我对少数类的预测性能接近 70%,错误的总数也很高。
例如,这是我的混淆矩阵。0 1 0 213812 7008 1 29083 16877
虽然 Minority 类(class 1)正确预测了 16877 次(70%,而误分类率仅为 30%,但与正确预测的 minotriy 类(16877)相比,误分类的绝对值非常高(29083)。这使得该解决方案对业务的可用性较低。
在这种罕见的事件建模中处理这类问题有什么想法吗?
温馨提示:在应用分类树之前,我已经使用 SMOTE 算法平衡了目标变量。