假设我正在尝试使用表格数据预测汽车是否会被拍卖(不是我实际上想要做的,但它很好地代表了它)。我有汽车的制造年份、颜色、型号等。型号是汽车的名称(例如:Sportage、Mazda3 等),一些比较著名的车型(如 Sportage)出现了很多次,而一些不太受欢迎的可能只出现一两次。在这种情况下,处理这个问题的理想方法是什么?
更多信息:
就我而言,我有大约 3000 种不同的汽车型号,前两个或三个大约占我数据的 20%,但其余的只在整个数据集中出现一两次。我已经尝试过一次热编码,这确实极大地提高了我的分数,但仍然不够好(我知道事实上它可能会更好)。
PS:我已经看过关于高基数的帖子,虽然我认为这与我的问题有关,但它仍然是一个不同的问题。
非常感谢!