对整个数据集或训练数据进行交叉验证?

数据挖掘 机器学习 交叉验证 分数
2022-02-18 12:49:01

我的交叉验证分数总是小于训练分数,我只对训练数据执行交叉验证是正常的吗?Kfold = 5叉

1个回答

是的,这叫做过拟合您的模型开始记住训练集,但在任何验证集或测试集上都表现不佳。如果您的问题是为什么会发生这种情况,我想向您推荐我写的另一个答案,更详细地解释了这种现象。

一个有趣的问题是,为什么交叉验证折叠的性能比测试集差?

这有点难以回答,因为我没有所有的细节。一些可能的解释可能是,由于训练集大于每个折叠,因此模型训练得更好,或者只是测试集示例恰好更容易。