当我设置随机种子 = 5 时,我的 bagging 决策树模型的准确率高达 97%,但当我设置随机种子 = 0 时,准确率降低到只有 92%。有人可以解释为什么会有巨大的差距吗?我应该在我的研究论文中使用最高价值的准确度还是用随机种子 = 无取平均值?
为什么我的 bagging 模型的准确性受到随机状态的严重影响?
数据挖掘
机器学习
分类
随机森林
装袋
2022-03-07 03:58:35
1个回答
有人可以解释为什么巨大的差距
它只是意味着根据选择的随机实例集存在相当大的差异。您在 bagging 过程中对实例进行了多少次重新采样?可能增加运行次数会减少方差。正如评论中提到的,性能差异的最常见原因是样本太小(和/或特征/类的数量太高)。这可能会导致您的模型过拟合。
我应该在我的研究论文中使用最高值的准确性还是使用随机种子=None 取平均值?
永远不要在随机运行中使用最高性能,这是挑剔的,它并不能反映真实的性能。选择随机种子的可能性是出于可重复性的目的,而选择给出最佳结果的种子与可重复性原则相反。
由于您使用的是 bagging,因此您应该通过增加运行次数来减少方差(这就是重点)。如果出于任何原因无法做到这一点,那么就不要使用 bagging:只需重复常规过程 split-training-evaluation次(使用固定比例的训练/测试数据)或使用交叉验证,并报告平均值性能(最好也报告方差,例如标准偏差)。
其它你可能感兴趣的问题