我在网上研究了一些关于高基数的分类变量。许多帖子和论文只是简短地得出结论,“它会影响模型的性能”,而没有详细说明为什么以及如何高基数会影响模型的性能?
特别是,它们如何分别倾斜基于树和基于距离的模型?关于为什么高基数不起作用,我有以下两个想法:
i) 在某些编码方法下,例如 one-hot,它会导致维度灾难。
ii) 在标签编码下,每个编码之间的间隔/距离绝对没有意义,例如类别1和2之间的距离在距离算法方面没有意义。
但除了这些答案之外,我还寻找更多(即为什么以及如何高基数扭曲模型)。此外,以下问题自然地从上述逻辑分支:
此外,如果高基数对分类变量不利,那么为什么没有人抱怨数值变量“基数太高”?特别是当数值和分类变量通常混合在一个表格数据集中时?
先感谢您!