堆叠功能无济于事

数据挖掘 集成建模
2022-03-03 00:37:57

我想知道为什么我的堆叠功能不能帮助我改进我的损失指标。这就是我正在做的事情:我正在添加新功能,这些新功能很简单,来自训练的预测,对原始训练/测试功能的其他模型的预测。每次我尝试这种方法,它都失败了。我很好奇这可能是什么问题。谁能给我一些建议?

1个回答

据我了解,堆叠不会向原始数据集添加功能。重点是在训练数据上训练几个模型,并将它们对训练数据的预测用作另一个模型的输入特征。

首先,这种构造使用逻辑回归作为最终集成,并使用来自每个基础学习器的类概率作为输入特征。现在,我描述的是一种技术布局,其背后的直觉如下:考虑到没有模型在所有特征的联合概率空间上都很好,可以将它们的结果结合起来,以便从每个模型中得到最好的。换句话说,我们可以声明我们探索模型的丰富性(被视为功能空间)以获得组合的东西。这种策略并不总是奏效,但经常奏效。

我认为你做错了什么。我认为最好只为基础学习者使用原始特征。如果可能,请小心使用分数或概率,而不是来自基础学习者的最终分类,它为改进提供了更多空间。通常最好堆叠来自不同家族的学习者,而不是具有不同参数的相同模型(使用梯度提升和随机森林比使用两个梯度提升更好)。所有这些建议都不是不能打破的规则,即使你全部接受它们也不能保证会有改进。