什么可以使一组火车数据比整个火车数据更具预测性

数据挖掘 分类 训练 预言
2022-02-28 21:10:54

我抽取了我的训练数据样本并对其进行了平衡,然后训练了我的模型。获得的结果比使用整组训练数据(平衡或不平衡)更准确。我的问题是:什么可以解释这个结果?(整组数据不包含任何噪声)。

提前致谢。

1个回答

在没有噪音的情况下,如果您观察到的准确度差异很大,我看到的唯一原因是,幸运的是,训练数据子集的分布恰好比整个数据的分布更接近验证数据的分布训练数据。
这不应该发生在真正具有代表性的验证数据上(即通过随机拆分给定数据集构建的训练和验证数据)。