如何使用相关数据调整随机森林的“深度”和“min_samples_leaf”?

机器算法验证 随机森林 过拟合
2022-04-06 03:21:41

我对运行多个RF模型的直觉有疑问。

我有一些应该相关的特征(3 到 10 之间),因为它们测量通常相关的事物。

我想调整maximum depth of the tree, 和min samples at each leaf- 两者都用作停止标准。

由于数据是相关的,我最好的直觉是我想让每个决策树尽可能深,并且在每个叶子的几分钟样本的一侧犯错(假设是 10,因为只有大约 1000 个数据点)。我对此的理由是,由于数据是相关的,因此无需担心过度拟合。

这种直觉正确吗?如果没有,优化这两个参数的好方法是什么?

1个回答

你做错了——RF的基本部分是它基本上只需要使#树足够大就可以收敛,就是这样(一旦开始进行适当的调整就会变得很明显,即嵌套交叉验证来检查选择的鲁棒性的参数确实是)。如果性能不好,最好修复功能或寻找其他方法。

修剪树对决策树很有效,因为它可以消除噪音,但在 RF 中这样做会杀死 bagging,因为在投票期间有不相关的成员会在它上中继。最大深度通常只是避免递归溢出的技术参数,而叶子中的最小样本主要用于平滑回归投票 - 该方法的精神是

每棵树都尽可能地生长。