为什么随机森林特征重要性偏向于高频率特征?

数据挖掘 特征选择 随机森林
2022-03-02 21:47:53

我了解随机森林算法的工作原理,但有人能告诉我随机森林特征选择偏向高基数特征的原因吗?

1个回答

随机森林(几乎与任何其他算法一样)倾向于选择可能导致与Y多变的。

为什么?因为你正在导致他们过度拟合。如果您的变量具有高基数,则意味着它们形成了小组(在叶节点中),然后您的模型正在“学习”个体,而不是概括它们。变量越“基数”,模型越过拟合。

例如,如果您将社会安全号码作为变量(可能的最大基数),则该变量肯定会具有最大的特征重要性。因为在叶节点中,您会发现每个人都有他的社交 sec。编号和他的输出。但模型的泛化能力为零。

几乎数据科学中的每一项任务看起来都不会发生这种情况。