在使用像分类器这样的决策树之前,我们是否应该将独立的连续变量(特征)转换为分类变量?

数据挖掘 机器学习 分类 随机森林 决策树 预处理
2022-02-19 00:25:20

考虑我有一个因变量来预测“态度”,它可以取三个值“正/负/中性”。我有以下自变量或特征——年龄、身高、性别、收入等。我试图使用决策树分类器来预测态度。

态度~年龄+身高+性别+收入(决策树)

当树深度为 15 时,我得到 > 90% 的准确度。因为树一次又一次地划分连续变量(即年龄、收入和身高)以获得纯类的叶子。

这是过拟合的问题吗?我应该将连续变量转换为分类变量(如范围类)吗?

1个回答

无需拆分连续变量,因为树已经自动完成了。测试过拟合的唯一方法是使用保持集或进行交叉验证。如果您过度拟合,将连续变量更改为分类变量可能不会产生影响。如果你感觉到你过度拟合,你应该减少你的树的深度。