数据挖掘 - 如果某个类别的特定标签只出现几次怎么办？ - 吾爱随笔录

假设我正在尝试使用表格数据预测汽车是否会被拍卖（不是我实际上想要做的，但它很好地代表了它）。我有汽车的制造年份、颜色、型号等。型号是汽车的名称（例如：Sportage、Mazda3 等），一些比较著名的车型（如 Sportage）出现了很多次，而一些不太受欢迎的可能只出现一两次。在这种情况下，处理这个问题的理想方法是什么？

更多信息：

就我而言，我有大约 3000 种不同的汽车型号，前两个或三个大约占我数据的 20%，但其余的只在整个数据集中出现一两次。我已经尝试过一次热编码，这确实极大地提高了我的分数，但仍然不够好（我知道事实上它可能会更好）。

PS：我已经看过关于高基数的帖子，虽然我认为这与我的问题有关，但它仍然是一个不同的问题。

非常感谢！