数据挖掘 - 在使用像分类器这样的决策树之前，我们是否应该将独立的连续变量（特征）转换为分类变量？ - 吾爱随笔录

数据挖掘机器学习分类随机森林决策树预处理

2022-02-19 00:25:20

考虑我有一个因变量来预测“态度”，它可以取三个值“正/负/中性”。我有以下自变量或特征——年龄、身高、性别、收入等。我试图使用决策树分类器来预测态度。

态度~年龄+身高+性别+收入（决策树）

当树深度为 15 时，我得到 > 90% 的准确度。因为树一次又一次地划分连续变量（即年龄、收入和身高）以获得纯类的叶子。

这是过拟合的问题吗？我应该将连续变量转换为分类变量（如范围类）吗？

1个回答

无需拆分连续变量，因为树已经自动完成了。测试过拟合的唯一方法是使用保持集或进行交叉验证。如果您过度拟合，将连续变量更改为分类变量可能不会产生影响。如果你感觉到你过度拟合，你应该减少你的树的深度。

其它你可能感兴趣的问题