我有一个严重倾斜的数据集,由 20 个类组成,其中最小的类包含大约 1000 个样本,最大的类包含数百万个样本。
关于验证数据,我知道我应该确保它代表的类之间的比率与我的原始原始数据中的比率相似。因此,我不应该对验证数据进行任何欠采样或过采样,但可以对训练数据进行采样。
因为我有如此大的倾斜数据集,在我的验证数据集的选择上增加一些限制是否仍然可行?假设我希望每个类至少有 1000 个样本才能接受它,因为我希望对所有类的指标都有合理的准确性。
这是否会破坏我的验证,因为最大和最小类别之间的比率可能会从 ~0.01-0.1% 变为 ~1.0%,或者它仍然安全,因为验证数据仍然明显偏斜?