在实时数据集中,数据集中有许多可用的缺失值,我们还需要处理数据预处理。并且有很多方法可以最小化缺失值预处理的问题。
那么,我们可以使用mean, median,standerd deviation还是可以删除所有记录?
为什么很多人拒绝从数据集中删除完整的记录,为什么?
在实时数据集中,数据集中有许多可用的缺失值,我们还需要处理数据预处理。并且有很多方法可以最小化缺失值预处理的问题。
那么,我们可以使用mean, median,standerd deviation还是可以删除所有记录?
为什么很多人拒绝从数据集中删除完整的记录,为什么?
缺失值并不一定意味着缺失信息。有时缺失值本身就代表了一个信息。例如:我们有一个数据集,它具有池区、编号等特征。房间和面积。现在池区有 90% 的价值缺失。您可以创建一个名为 is_pool 的新列,该列从 pool area 列中通过使用如果缺少 pool area 则使 is_pool =0 否则为 1 的条件来判断房子是否有 pool。
这是一个基本示例,根据我的经验,在进行 EDA 时最困难的事情是识别缺失值是否真的意味着没有信息,或者它是否完全代表其他东西。简而言之,了解为什么缺少该值。