我对运行多个RF模型的直觉有疑问。
我有一些应该相关的特征(3 到 10 之间),因为它们测量通常相关的事物。
我想调整maximum depth of the tree, 和min samples at each leaf- 两者都用作停止标准。
由于数据是相关的,我最好的直觉是我想让每个决策树尽可能深,并且在每个叶子的几分钟样本的一侧犯错(假设是 10,因为只有大约 1000 个数据点)。我对此的理由是,由于数据是相关的,因此无需担心过度拟合。
这种直觉正确吗?如果没有,优化这两个参数的好方法是什么?