假设我们有一个输入特征可以高度预测我们想要预测的结果。但是,数据集中 99% 的样本都缺少该特征。在构建预测模型时使用此功能的最佳方法是什么?任何想法将不胜感激!
如何处理数据集中 99% 的样本缺失的有价值的特征?
数据挖掘
特征选择
特征工程
特征提取
相关性
缺失数据
2022-02-23 04:09:23
1个回答
最好删除这样的变量。原因如下:
- 人为插补会增加偏差,结果无法证明是合理的,因为特定变量的 99% 数据是人为创建的。
- 您选择用于构建预测模型的变量/特征应该与目标/结果变量/特征具有低相关性。因为,与目标/结果变量高度相关的变量会降低模型的预测性能。
- 您需要一个具有低偏差和低方差的模型。