数据挖掘 - 为什么不首选具有高基数的分类变量而不是数值变量？ - 吾爱随笔录

我在网上研究了一些关于高基数的分类变量。许多帖子和论文只是简短地得出结论，“它会影响模型的性能”，而没有详细说明为什么以及如何高基数会影响模型的性能？

特别是，它们如何分别倾斜基于树和基于距离的模型？关于为什么高基数不起作用，我有以下两个想法：

i) 在某些编码方法下，例如 one-hot，它会导致维度灾难。

ii) 在标签编码下，每个编码之间的间隔/距离绝对没有意义，例如类别1和2之间的距离在距离算法方面没有意义。

但除了这些答案之外，我还寻找更多（即为什么以及如何高基数扭曲模型）。此外，以下问题自然地从上述逻辑分支：

此外，如果高基数对分类变量不利，那么为什么没有人抱怨数值变量“基数太高”？特别是当数值和分类变量通常混合在一个表格数据集中时？

先感谢您！