数据挖掘 - 我应该将多个目标箱合并为一个以获得更好的结果吗？ - 吾爱随笔录

我应该将多个目标箱合并为一个以获得更好的结果吗？

数据挖掘 Python 多类分类

2022-03-13 21:55:45

我有一个多类分类任务，其中目标有11 个不同的类。要分类的目标是在医院的住院时间，目标类别位于不同的 bin 中，例如1-10、11-20等21-30。到目前为止，我已经尝试过神经网络来完成我的任务，但我的表现并不好。

现在我在 Kaggle 上阅读了这个声明，即减少目标的 bin，而不是 11 个类，将 2 个或更多类合并为 1 个，这样我的类就更少了，这可能有助于提高模型性能。基本上，类的数量越多，模型的性能就越差。我的问题是，减少类的数量会提高我的模型性能吗？在现实世界的数据集中这样做是否可取？

1个回答

一般来说，是的：减少类别的数量会机械地增加分类器找到正确类别的概率。即使在随机挑选班级的最坏情况下，当班级减少时，每个剩余班级的概率都会增加。另一种看待它的方式：在所有其他条件相同的情况下，只有当两个类合并时，错误的数量才能减少。

是否可取是另一回事。这完全是人为的：性能可能更高，但这只是因为问题变得更容易了。所以它在纸面上可能看起来更好，但这绝不是真正的改进。此外，除非删除大量类，否则它很少会导致性能大幅提升。通常，应该做出决定只是因为它对任务有意义。

最后我认为在这种情况下这不是正确的问题：这个任务可能应该被设计为一个回归问题，而不是一个分类问题。目标范围是有序的，因此回归模型应该能够更好地利用具有连续目标变量的信息。例如，每个范围可以表示为平均值：1-10 为 5，10-20 为 15，等等。如果需要，可以将预测值映射回过程结束时的范围。

此外，我通常的建议是先从一个简单的模型开始，例如决策树或 SVM 回归 (SVR)。

其它你可能感兴趣的问题

上一篇随机森林模型训练、稍后保存和预测与立即训练和预测 - 不同的结果下一篇坚持与平稳并存