考虑我有一个因变量来预测“态度”,它可以取三个值“正/负/中性”。我有以下自变量或特征——年龄、身高、性别、收入等。我试图使用决策树分类器来预测态度。
态度~年龄+身高+性别+收入(决策树)
当树深度为 15 时,我得到 > 90% 的准确度。因为树一次又一次地划分连续变量(即年龄、收入和身高)以获得纯类的叶子。
这是过拟合的问题吗?我应该将连续变量转换为分类变量(如范围类)吗?
考虑我有一个因变量来预测“态度”,它可以取三个值“正/负/中性”。我有以下自变量或特征——年龄、身高、性别、收入等。我试图使用决策树分类器来预测态度。
态度~年龄+身高+性别+收入(决策树)
当树深度为 15 时,我得到 > 90% 的准确度。因为树一次又一次地划分连续变量(即年龄、收入和身高)以获得纯类的叶子。
这是过拟合的问题吗?我应该将连续变量转换为分类变量(如范围类)吗?
无需拆分连续变量,因为树已经自动完成了。测试过拟合的唯一方法是使用保持集或进行交叉验证。如果您过度拟合,将连续变量更改为分类变量可能不会产生影响。如果你感觉到你过度拟合,你应该减少你的树的深度。