我正在使用带有训练优先级队列的随机搜索来调整二元随机森林分类器的参数。在使用固定数量的估计器(3000)进行训练后,策略是降低性能低于具有相同估计器数量的所有其他运行配置的中值的配置的优先级(并最终暂停),同时我不断添加新的估计器到性能最佳的配置,直到达到估计器的总数。
估计器的最大数量用于限制计算需求,并且调度被用作将计算资源更早地投入到最有希望的配置中的一种手段。
作为性能标准,我使用根据 OOB 预测计算的平均精度分数,我还检查了训练模型在保留测试集上的平均精度。
我已经多次运行此设置,但每次 OOB 分数和测试分数都是负相关的,这意味着模型在 OOB 上的表现越好,在保留集上的表现越差。事情也正好相反!!!
我认为这种现象是由不幸的训练/测试拆分引起的,但即使每个模型随机拆分,这种情况仍然会发生。我还进行了一个较小的训练实验,其中我使用了 10 倍交叉验证的平均精度分数而不是 oob,但它仍然与测试统计量呈负相关。
您认为这种行为的原因可能是什么?
