是否有足够数量的分类变量级别?

数据挖掘 分类数据
2022-03-11 00:20:47

我有一个正在做的项目。数据集包含许多分类变量,其中一些具有太多级别(+100)。我的问题是:有什么建议可以知道变量的“足够”级别数吗?它是基于其他变量的水平数吗?(例如,大多数变量有 10 到 30 个级别,一个或两个变量有 80 100 个级别)。对于包含太多级别的变量,我想取 80% 的最常见级别并将 20% 放入一个新级别“其他”,但我不知道我应该在哪个级别停止(例如:var 1 : 70 级, var 2 : 100 级, var 3 : 13, var 4 : 30, var 5 : 60,我应该从 60 开始应用 80-20 方法吗?70?100?)我不知道我是否我很清楚,但我希望你能理解

1个回答

不,分类变量没有“足够”的级别数。

通过丢弃某些级别(例如,按照您的建议使用默认类别)来简化数据的选择取决于目标是什么(以及实例的数量等)。很多时候,这种选择是通过实验做出的,即通过尝试不同的方法(例如不同的阈值)并观察哪种方法的性能最好:在这里你可以做一个程序,尝试不同的比例作为阈值,然后训练和测试得到的模型每个值,最后绘制每个值的性能。