如何确定决策树分析中的叶子数?

数据挖掘 分类 决策树 交叉验证
2022-02-14 23:20:02

如果论坛上的一些专家可以帮助我了解如何在决策树分析中确定最佳叶子数,将不胜感激。

我正在使用 SAS,如果我在模型中提供叶子 = 6,则验证和训练数据集的错误分类率分别为 18.6% 和 18.8%。SAS 列出了 5 个重要的变量。

如果我不在代码中提供叶子计数并让 SAS 决定,那么修剪后的 SAS 将 10 作为叶子计数,验证和训练数据集的错误分类率分别为 17.5% 和 16.9%。SAS 列出了 6 个重要的变量。

现在错误分类率降低了,修剪后的树从 4 增加到 10,这是好事还是表明过度拟合?

期待本组专家的意见。谢谢

1个回答

我将假设您的测试和验证数据集已正确创建(例如,测试和验证集中都没有观察,两个集的大小都合适,等等)。

过度拟合意味着您的模型非常适合您的训练数据,但不能很好地概括看不见的数据(即在您的验证数据集上表现不佳)。

您在验证集(看不见的数据)上的错误分类率正在下降,因此是一件好事。但是,如果验证集上的错误分类率增加,则表明过度拟合。