对我的倾斜验证数据的限制

数据挖掘 机器学习 分类 交叉验证 阶级失衡
2022-02-17 03:20:00

我有一个严重倾斜的数据集,由 20 个类组成,其中最小的类包含大约 1000 个样本,最大的类包含数百万个样本。

关于验证数据,我知道我应该确保它代表的类之间的比率与我的原始原始数据中的比率相似。因此,我不应该对验证数据进行任何欠采样或过采样,但可以对训练数据进行采样。

因为我有如此大的倾斜数据集,在我的验证数据集的选择上增加一些限制是否仍然可行?假设我希望每个类至少有 1000 个样本才能接受它,因为我希望对所有类的指标都有合理的准确性。

这是否会破坏我的验证,因为最大和最小类别之间的比率可能会从 ~0.01-0.1% 变为 ~1.0%,或者它仍然安全,因为验证数据仍然明显偏斜?

1个回答

我建议使用您的整个验证集,但提供特定于类的指标。例如,AUC 仅考虑具有单个类中的目标的验证行。这将帮助您查看您是否在特定课程中表现不佳。然后你可以说“这个模型在整个验证集上获得了 0.xxx AUC,并且对于任何一个类都不差于 0.yyy。”