在监督学习中,更多的数据条目总是更好吗?

数据挖掘 机器学习 监督学习 数据插补
2022-02-22 08:21:51

我正在做一个监督学习问题,有 600,000 行数据。我将其分为训练集和测试集,并达到了我满意的高精度。但是,我丢弃了 300,000 个条目,因为它们包含大量缺失的数据。当我重做分析时,除了使用均值、中值和众数插补方法来填充缺失的数据条目并重复训练/测试 - 我的准确度下降了 4%。

为什么是这样?我认为更多的数据会更好,或者至少保持不变。这是否意味着估算不准确?或者我可能只是通过选择原始时间没有丢失条目的记录来偏向抽样过程?我怎么可能知道哪种情况,因为我无法知道估算值与缺失的真实值有多准确?

1个回答

这是您的数据丢失不是随机的线索。

缺失数据是系统过程的结果,该过程也影响预测目标绩效。