我有一个数据集,其中大约 20% 的数据是正类,80% 的数据是负类。当我对平衡数据集进行欠采样和训练分类器并在平衡数据集上进行测试时,结果还不错。但是,如果我在平衡数据集上进行训练并在复制现实世界(80-20 拆分)的不平衡数据集上进行测试,则指标并不是很好。如果我希望它在同样不平衡的真实世界测试数据上表现良好,我是否应该在原始不平衡数据集上训练模型。
如果数据集在现实生活中不平衡,我是否应该在不平衡的数据集上训练我的机器学习模型
数据挖掘
机器学习
数据集
机器学习模型
2022-02-18 14:25:47
1个回答
当我对平衡数据集进行欠采样和训练分类器并在平衡数据集上进行测试时,结果还不错
结果很好并不奇怪,因为在这种情况下工作更容易。在人为平衡的数据集上进行测试实际上是一个错误,因为这不是对系统如何处理真实数据的公平评估。
如果我希望它在同样不平衡的真实世界测试数据上表现良好,我是否应该在原始不平衡数据集上训练模型。
在原始数据集或平衡数据集上进行训练都是有效的方法,在这两个选项之间进行选择是设计和性能的问题。尝试两者然后选择在真实不平衡数据集上表现优于另一个的通常是一个好主意。
其它你可能感兴趣的问题