测试部分的模型分数与 Kaggle 公开分数之间的差异

数据挖掘 交叉验证 卡格尔 验证 分数 猫促进
2022-02-26 01:29:58

我在部分数据上测试了我的 CatBoostModel 模型,得到了 0.92 的分数,但 Kaggle 的公开分数是 0.9。我通过随机搜索找到了新的超参数,新模型得分为 0.925,但在 Kaggle 上得分下降到 0.88。

我应该怎么做才能正确验证模型?

1个回答

一般来说,您应该期望在测试集上获得比验证集更低的分数,因为您利用验证数据来调整模型。但是对于正确训练的模型,验证集和测试集之间的差异必须很小,例如 0.92 与 0.9。为了对模型的输出更有信心,您可以执行Cross-Validation

此外,显然,您的模型在超参数优化后过度拟合了训练数据。您可以使用正则化提前停止来防止这种情况。