使用 LightGBM 获得极高的增益

数据挖掘 特征选择 助推 lightgbm
2022-02-11 01:59:41

我正在研究二进制分类问题。目标变量不是线性可分的,所以我决定使用带有默认参数的 LightGBM(我只使用 n_estimators,范围为 10 - 100)。

当我输出增益(LightGBM 的特征重要性)时,它在 x 轴上具有极高的值。当我增加估计器的数量时,x 轴增益会变得更高。在我看来,该模型过度拟合到单个特征 [ 1 ]。

另一方面,分割特征重要性似乎有一个很好的分布,在 x 轴 [ 2 ] 上没有极值。

具有极端增益值的这种行为的原因是什么?正则化?

特性增益极高

在此处输入图像描述

1个回答

它绝对不是正则化,因为默认值为 0(请查看此处

n_estimators 是你进入 bagging 的决策树的数量这些决策树采用随机数量的行列(同样取决于参数),因此可能是您采用了一些不幸的组合,应该使用更多数量的 n_estimators 来平衡。

建议:对 feat.importance 使用不同的标准,例如Permutation important,然后进行比较。

最后的想法,超参数可能无关紧要。使用不同的算法查看参数对某些任务的影响。结论:这可能是一种矫枉过正(有时它很重要!)在此处输入图像描述