如果某个类别的特定标签只出现几次怎么办?

数据挖掘 分类 数据集 数据 分类数据 分类编码
2022-02-27 18:04:21

假设我正在尝试使用表格数据预测汽车是否会被拍卖(不是我实际上想要做的,但它很好地代表了它)。我有汽车的制造年份、颜色、型号等。型号是汽车的名称(例如:Sportage、Mazda3 等),一些比较著名的车型(如 Sportage)出现了很多次,而一些不太受欢迎的可能只出现一两次。在这种情况下,处理这个问题的理想方法是什么?

更多信息:

就我而言,我有大约 3000 种不同的汽车型号,前两个或三个大约占我数据的 20%,但其余的只在整个数据集中出现一两次。我已经尝试过一次热编码,这确实极大地提高了我的分数,但仍然不够好(我知道事实上它可能会更好)。

PS:我已经看过关于高基数的帖子,虽然我认为这与我的问题有关,但它仍然是一个不同的问题。

非常感谢!

1个回答

由于少数汽车型号会产生 20% 的数据,因此您可以使用这 2-3 种汽车型号创建所有汽车类别的相似性矩阵。所以在这个矩阵中,每个车型都有 2-3 个值来描述它与那 2-3 个车型的相似性。您现在可以将这些新功能添加到现有功能中,以对代表性不足的车型分类进行一些改进。

您可以使用汽车型号的数量来比较每个汽车型号。在这里,这 2-3 款车型涵盖了 20% 的数据。可能 30 种汽车型号将覆盖 40% 的数据,因为有 3000 种汽车型号,这些数据仍然有用。