为什么我们不能在数据预处理中删除具有缺失值的特征

数据挖掘 机器学习 熊猫 特征选择 数据清理 缺失数据
2022-02-21 04:19:20

实时数据集中,数据集中有许多可用的缺失值,我们还需要处理数据预处理。并且有很多方法可以最小化缺失值预处理的问题。

那么,我们可以使用mean, medianstanderd deviation还是可以删除所有记录?

为什么很多人拒绝从数据集中删除完整的记录,为什么?

1个回答

缺失值并不一定意味着缺失信息。有时缺失值本身就代表了一个信息。例如:我们有一个数据集,它具有池区、编号等特征。房间和面积。现在池区有 90% 的价值缺失。您可以创建一个名为 is_pool 的新列,该列从 pool area 列中通过使用如果缺少 pool area 则使 is_pool =0 否则为 1 的条件来判断房子是否有 pool。

这是一个基本示例,根据我的经验,在进行 EDA 时最困难的事情是识别缺失值是否真的意味着没有信息,或者它是否完全代表其他东西。简而言之,了解为什么缺少该值。