机器算法验证 - xgboost 的装袋 - 吾爱随笔录

如今，极端梯度提升算法似乎得到了广泛的应用。我经常觉得增强模型倾向于过度拟合。我知道算法中有参数可以防止这种情况。坚持这里的文档参数subsample，并且colsample_bytree可以（除其他外）防止过度拟合。但它们的用途与装袋 xgboosted 模型的用途不同 - 对吧？

我的问题：你会在 xgboost 之上应用 bagging 来减少拟合的方差吗？

到目前为止，问题是统计的，我敢于添加代码细节：如果装袋有意义，我会对使用 R 包的示例代码感到高兴caret。

评论后编辑：如果我们仅依靠参数来控制过拟合，那么我们如何才能最好地设计交叉验证？我有大约。6000 个数据点并应用 5 倍 x 验证。什么可以提高样本外性能：进行 10 倍 x 验证或重复 5 倍 x 验证？顺便提一下：我使用cartet实施此类策略的包。