如果论坛上的一些专家可以帮助我了解如何在决策树分析中确定最佳叶子数,将不胜感激。
我正在使用 SAS,如果我在模型中提供叶子 = 6,则验证和训练数据集的错误分类率分别为 18.6% 和 18.8%。SAS 列出了 5 个重要的变量。
如果我不在代码中提供叶子计数并让 SAS 决定,那么修剪后的 SAS 将 10 作为叶子计数,验证和训练数据集的错误分类率分别为 17.5% 和 16.9%。SAS 列出了 6 个重要的变量。
现在错误分类率降低了,修剪后的树从 4 增加到 10,这是好事还是表明过度拟合?
期待本组专家的意见。谢谢