当真实的类分布不平衡时,类权重会鼓励过度拟合吗?

数据挖掘 机器学习 分类 阶级失衡 过拟合 偏见
2022-03-06 01:33:18

我正在研究一个分类问题,其中约 90% 的样本来自第 1 类,而约 10% 的样本来自第 2 类。我一直在使用各种技术来解决类不平衡问题,但是,我很担心关于潜在的偏见,这可能会引入,因为真实的类分布是未知的。如果真实分布(或某种合理的近似值)未知,那么在学习期间对类别进行加权是不好的做法吗?

1个回答

你的评价是对的。您必须首先实时确定数据分布(生产),然后才能继续进行train_settest_setvalidation_set使用相同的分布进行创建。如果需要,随后进行模型训练和设置类权重。

为什么:

  • 您评估模型所依据的任何指标基本上都不可靠,因为它并不表示模型的真实性能(如真实/真实分布)。
  • 您最终会根据对指标的错误感知来训练和优化模型。
  • 模型权重和偏差取决于训练数据的分布。为了获得最佳性能,必须对真实分布进行训练。