所以....
我已经玩这个太久了,我真的需要一些建议。
大多数人在 kaggle concat 训练和测试集上,然后对数据进行预缩放,这似乎在评分时提供了很好的结果,但我认为这是数据泄漏和在现实世界解决方案中执行的不正确过程。
我将 15% 的数据作为保留集,其余的用于 CV。
我遇到的问题是,如果我将缩放器放入管道中,CV 的每一折上的缩放都会发生变化,并且如果我在超参数调整之前预缩放整个数据集,则会得到截然不同的结果。
一旦我适合整个训练数据(包括保持集),我什至会得到更糟糕的结果,这表明它对较小的数据集过度拟合。
我能做些什么来解决这个问题吗?
难道我做错了什么?(我应该将缩放器放入管道中吗?)
或者这就是现实世界中的样子?
关于过度拟合等的任何其他帮助都会令人惊叹。