我正在使用 Orange 数据挖掘工具来构建和分析预测客户流失的模型(决策树、ANN,...)。由于这是一个不平衡的类别问题(10% 流失,90% 不流失),我需要在交叉验证中过采样。但是,我自己并不能完全实现这一点。有没有橙色知识的人可以帮助我?
谢谢!
我正在使用 Orange 数据挖掘工具来构建和分析预测客户流失的模型(决策树、ANN,...)。由于这是一个不平衡的类别问题(10% 流失,90% 不流失),我需要在交叉验证中过采样。但是,我自己并不能完全实现这一点。有没有橙色知识的人可以帮助我?
谢谢!
橙色没有过采样/欠采样。我们的理由是,如果你用 10% 的正类对问题建模,那么你不应该用 50:50 的类分布来训练模型——它不会反映现实生活。但是,在 LogReg 和 Random Forest 中的 Orange 中有一个选项来平衡类分布,它在构建模型时会考虑类分布。