我应该将多个目标箱合并为一个以获得更好的结果吗?

数据挖掘 Python 多类分类
2022-03-13 21:55:45

我有一个多类分类任务,其中目标11 个不同的类要分类的目标是在医院的住院时间,目标类别位于不同的 bin 中,例如1-1011-2021-30到目前为止,我已经尝试过神经网络来完成我的任务,但我的表现并不好。

现在我在 Kaggle 上阅读了这个声明,即减少目标的 bin,而不是 11 个类,将 2 个或更多类合并为 1 个,这样我的类就更少了,这可能有助于提高模型性能。基本上,类的数量越多,模型的性能就越差。我的问题是,减少类的数量会提高我的模型性能吗?在现实世界的数据集中这样做是否可取?

1个回答

一般来说,是的:减少类别的数量会机械地增加分类器找到正确类别的概率。即使在随机挑选班级的最坏情况下,当班级减少时,每个剩余班级的概率都会增加。另一种看待它的方式:在所有其他条件相同的情况下,只有当两个类合并时,错误的数量才能减少。

是否可取是另一回事。这完全是人为的:性能可能更高,但这只是因为问题变得更容易了。所以它在纸面上可能看起来更好,但这绝不是真正的改进。此外,除非删除大量类,否则它很少会导致性能大幅提升。通常,应该做出决定只是因为它对任务有意义。

最后我认为在这种情况下这不是正确的问题:这个任务可能应该被设计为一个回归问题,而不是一个分类问题。目标范围是有序的,因此回归模型应该能够更好地利用具有连续目标变量的信息。例如,每个范围可以表示为平均值:1-10 为 5,10-20 为 15,等等。如果需要,可以将预测值映射回过程结束时的范围。

此外,我通常的建议是先从一个简单的模型开始,例如决策树或 SVM 回归 (SVR)。