我正在使用RandomForest和XGBoost进行二元分类,我的任务是预测每个类的概率。由于基于树的模型在输出可用概率方面不好,我导入了sklearn.calibration CalibratedClassifierCV40k 训练的 RF,然后用单独的 10k 样本(带有cv="prefit"选项)训练 CCV,我的指标(ROC 下的面积)显示性能大幅下降。概率校准改变基本估计器的行为是否正常?
编辑:由于我正在最小化我的 XGBClassifier 上的 logloss,因此与 RF 的输出相比,输出概率并没有那么糟糕。