XGboost 分类非常小的数据集

数据挖掘 r xgboost 超参数
2022-02-18 17:49:40

我有一个关于 XGboost 的一般性问题,尤其是关于小型数据集的 n_rounds 参数。

通常我通过交叉验证来调整 n_rounds 参数,但是如果你的观察太少而无法进行正确的 CV 怎么办?例如,如果我的训练数据中有 30 个变量和 4000 个观察值,我如何才能为 n_round 找到一个不会过拟合/欠拟合训练数据的好值?

对于具有小数据集的参数调整(还有 max_depth 等),是否有任何“最佳实践”?

1个回答

您可以使用网格搜索或 xgb.cv 来找到最佳迭代。运行 xgb.cv 例如 500 棵树并添加提前停止标准。然后您可以对 xgb.train 使用最佳迭代。看看这些链接。

超调 XGBoost 参数

https://stats.stackexchange.com/questions/171043/how-to-tune-hyperparameters-of-xgboost-trees