数据挖掘 - 为什么随机森林特征重要性偏向于高频率特征？ - 吾爱随笔录

数据挖掘特征选择随机森林

2022-03-02 21:47:53

我了解随机森林算法的工作原理，但有人能告诉我随机森林特征选择偏向高基数特征的原因吗？

1个回答

随机森林（几乎与任何其他算法一样）倾向于选择可能导致与 $Y$ 多变的。

为什么？因为你正在导致他们过度拟合。如果您的变量具有高基数，则意味着它们形成了小组（在叶节点中），然后您的模型正在“学习”个体，而不是概括它们。变量越“基数”，模型越过拟合。

例如，如果您将社会安全号码作为变量（可能的最大基数），则该变量肯定会具有最大的特征重要性。因为在叶节点中，您会发现每个人都有他的社交 sec。编号和他的输出。但模型的泛化能力为零。

几乎数据科学中的每一项任务看起来都不会发生这种情况。

其它你可能感兴趣的问题