数据挖掘 - 使用缺失的数字数据进行预测 - 吾爱随笔录

我不太了解如何处理丢失的数据。当数据是分类数据时，它似乎并不算太糟糕，如果我对其进行一次热编码而不丢弃任何实际类别，则模型中会考虑丢失的数据，因为所有相关的一次热列都为零。但是对于数字数据，我不喜欢我理解的选项：省略整个观察，或估算一个值。还有其他选择吗？

我倾向于省略数据（在我正在处理的数据中，它会导致约 2% 的数据丢失），但如果您在数据丢失时尝试做出预测，这将无济于事，而我不能找到很多有用的讨论来解决问题的这方面（主要是围绕训练模型）。

我想您可以训练多个模型来处理缺失特征的所有排列，并选择与可用预测数据匹配的模型？但这似乎太笨重和耗时，不实用。（我现在正在处理的数据集是人工的；它有 100 个特征，其中 96 个是数字的，所有这些 [训练集和预测集] 都有 2-20 个缺失值。）

Fwiw，如果我必须估算数据，我的计划是使用 98% 的完整训练/预测数据进行回归，预测每个缺失值的均值，然后根据方差/CI 对其进行随机化。

我想这可以归结为两个问题/要求：

1）如上面粗体部分省略/插补：还有其他选择吗？

2）鉴于预测必须基于缺失的数据，关于如何进行的一般建议？

-- 编辑/添加 20 年 3 月 15 日 -- 我特别想知道在实施不处理缺失值的回归等模型时，还有哪些其他选项，以及什么被认为是最佳实践？