为什么我的提升模型在 61 个特征中只有 4 个会过拟合?

数据挖掘 机器学习 神经网络 分类 预测建模 xgboost
2022-02-17 20:58:59

我正在使用平衡装袋随机森林、神经网络和提升技术来解决二元分类问题。我的数据集大小为 977,班级比例为 77:23。

我的数据集中有 61 个特征。然而,经过大量的特征选择活动,我得出了 5 个特征。但是,是的,这 5 个特征是使用 RFECV、Borutapy 等中的随机森林估计器识别的。 所以,有了 5 个特征,我认为我的 Xgboost 模型不会过拟合并在测试集中为我提供更好的性能,但 Xgboost 模型仍然过拟合并且产生的效果很差测试集上的结果。但是,随机森林在train和上的表现相似test可以帮助我理解为什么会发生这种情况吗?

下面显示了训练和测试的性能

随机森林 - 训练数据

在此处输入图像描述

随机森林 - 测试数据

在此处输入图像描述

roc_auc 用于随机森林 - 81


Xgboost - 训练数据

在此处输入图像描述

Xgboost - 测试数据

在此处输入图像描述

xgboost 的 roc_auc - 0.81

1个回答

过度拟合不仅取决于特征的数量,还取决于其他超参数。我建议您在训练最终模型时进行广泛的超参数调整并使用提前停止。这可能会带来更好的结果。

否则,如果不进行实验,就很难判断过度拟合的原因