集成模型中的变量重要性

数据挖掘 随机森林 集成建模
2022-02-24 18:38:56

我注意到,当您制作一个小型决策树模型,然后通过围绕相同树设置创建一组树来扩展模型时,变量重要性被稀释,因为最不重要和最重要的变量变得更加重要走得更近。在某些情况下,可能几乎存在重要性上的区别。是否有可用的方法来减轻或衡量这种影响,以定义理解变量重要性和整体准确性之间的任何权衡?

1个回答

几年来,我一直在使用基于树的集成方法,例如随机森林和梯度提升,我不得不说我从未见过这种行为。

一些包仅根据树的最终拆分而不是候选/代理拆分来衡量变量重要性,因此如果您有两个相关的重要输入,但一个始终比另一个好一点,那么不太重要的输入可能永远不会被选中作为最终拆分,因此看起来与一些价值较低的输入一样重要。但是,这种现象与树/集合的数量无关,因此我认为它不能完全解释您所看到的行为。