概率校准正在恶化我的模型性能

数据挖掘 机器学习 分类 概率校准
2022-03-10 06:28:48

我正在使用RandomForestXGBoost进行二元分类,我的任务是预测每个类的概率。由于基于树的模型在输出可用概率方面不好,我导入了sklearn.calibration CalibratedClassifierCV40k 训练的 RF,然后用单独的 10k 样本(带有cv="prefit"选项)训练 CCV,我的指标(ROC 下的面积)显示性能大幅下降。概率校准改变基本估计器的行为是否正常?

编辑:由于我正在最小化我的 XGBClassifier 上的 logloss,因此与 RF 的输出相比,输出概率并没有那么糟糕。

1个回答

概率校准只是在基本分类器之上堆叠逻辑或等渗回归。默认是logistic,由于sigmoid是严格递增的函数,样本的排序不受影响,所以AUC根本不应该改变。

(对于等渗回归,它实际上是分段常数,因此在函数恒定的跨度内,所有样本的分数都会相等,因此您的 ROC 曲线会变得更粗糙,这会影响 AUC;但这些影响应该小,只要等渗拟合产生足够多/短的恒定段。)

此外,像 XGBoost 这样的梯度提升会产生偏向极端的分数而不是像随机森林那样远离极端,因此逻辑校准不太可能很好地发挥作用。