在构建逻辑回归模型之前对原始数据进行分箱

机器算法验证 回归 物流 分箱
2022-04-16 23:51:16

我有一组变量用于使用逻辑回归构建信用记分卡。我需要对一些变量进行分类,例如多年的信用记录。确定多少个 bin 以及每个 bin 的间隔是什么方法是什么?

2个回答

分箱将产生一个更复杂的模型,即,您将需要模型中的更多项来预测结果以及将预测变量视为连续的模型。Bins 也给模型带来了一定程度的随意性。看看回归样条曲线作为替代方案。可以在http://biostat.mc.vanderbilt.edu/rms找到有关这方面的说明。还要确保你的结果是真正的二分法,即事件发生之前的时间是无关紧要的,并且你没有审查。

您可以在函数中指定绑定算法,定义实用函数并优化输入参数...

效用函数的想法可以是:

  1. 预测力(证据权重和信息价值)
  2. 从一个箱子到另一个箱子的平均违约率单调递减(随着历史年龄的增加......)

例如,您还可以将优化限制为仅查找 3 到 5 个箱...