如何处理数据集中 99% 的样本缺失的有价值的特征?

数据挖掘 特征选择 特征工程 特征提取 相关性 缺失数据
2022-02-23 04:09:23

假设我们有一个输入特征可以高度预测我们想要预测的结果。但是,数据集中 99% 的样本都缺少该特征。在构建预测模型时使用此功能的最佳方法是什么?任何想法将不胜感激!

1个回答

最好删除这样的变量。原因如下:

  1. 人为插补会增加偏差,结果无法证明是合理的,因为特定变量的 99% 数据是人为创建的。
  2. 您选择用于构建预测模型的变量/特征应该与目标/结果变量/特征具有低相关性。因为,与目标/结果变量高度相关的变量会降低模型的预测性能。
  3. 您需要一个具有低偏差和低方差的模型。