如果训练集不平衡,则模型可能会出现偏差。但如果测试集中的数据分布与训练集中的分布相同,这种偏差不会影响验证的准确性。但我的问题是,这样做是否正确?不是作弊吗?如果我们想将模型用于我们不知道数据分布如何的商业业务怎么办?在这种情况下,正确的做法是什么?
在不平衡数据的测试集中维护火车分布是否正确?
数据挖掘
机器学习
训练
采样
数据泄露
验证
2022-02-19 05:28:55
1个回答
如果训练集不平衡,则模型可能会出现偏差。
并不真地。取决于您使用的损失函数。另外,请注意,对于不平衡的数据,至少它必须是 1/100 的比例。
剩下的问题:
ML 基于训练和测试看起来相似的假设。过采样方法可以帮助训练时间,仍然在验证和测试中,您不应该使用过采样并使用真实数据进行验证。
在真实测试中使用您的评估指标,测试分布并且不要在那里过度采样。
我们想将模型用于我们不知道数据分布如何的商业业务?
如果你不知道分布将如何,你就有问题了。人们做出的假设是,未来的分布类似于当前的实际分布(上周、上个月、一年前……)
其它你可能感兴趣的问题