Predict_proba() 概率分布

数据挖掘 分类 逻辑回归 可能性
2022-03-10 20:32:52

我正在尝试计算第 1 类的概率。我正在使用梯度提升(catboost 分类器)在每个 predict_proba() 存储桶中具有相同比率的正类是否正常?例如:

[概率]:阳性率

[0 - 0.25]:17%

[0.26 - 0.50]:17%

[0.51 - 0.75]:17%

[0.76 - 1]:17%

然而,当我使用逻辑回归并将 WOE 转换为分数时,1 类比率的分布随着分数的增加而减少。eg: [Score] : 阳性率

[100-150]:17%

[151-200]:15%

[200 - 250]:13%

[250-300]:10%

1个回答

根据提供的上下文,这就是我假设您所做的:

Cat boost:使用所有 x 变量预测 1 的概率,并对概率进行分组并计算每个分组中 1 的百分比。

逻辑回归:您使用了 x 变量中的 1 个连续变量,并将其划分为提到的波段,并计算每个波段中 1 的发生率。

如果以上两个陈述都为真,那么

你的 catboost 模型很可能要么欠拟合,要么没有从模型中学到任何东西。这种推论是因为逻辑回归变量表明至少 1 个变量对 y 具有一定的预测能力。

最好提供一些关于数据类型和类的额外细节,以便进一步分析。