我是数据科学的新手。我正在尝试获得随机森林的最佳模型。不幸的是,我不确定我的想法是否能产生一个好的泛化模型。
1) 我将数据拆分为 TrainingSet (70%) 和 TestSet (30%)
2) 然后随机选择 RandomForest 的超参数和 (2-15) 之间的 CrossValidation 的折叠次数
3)然后我将 TraingSet 数据提取到 RandomForest 学习器
4)然后做模型的交叉验证 - 从交叉验证我得到预测数组
5) 测量 CrossValidation 中针对 TrainSet 中目标的预测的准确性
6) 重复所有步骤并尝试最小化 AccuracyError
这是获得最佳广义模型的好方法吗?
我需要将数据拆分为 TrainSet 和 TestSet 吗?
或者我应该搜索所有数据的最佳超参数和折叠数?我觉得在超参数调整期间使用 k-fold CrossValidation 时不需要拆分数据。