数据挖掘 - 为什么我们不能在数据预处理中删除具有缺失值的特征 - 吾爱随笔录

为什么我们不能在数据预处理中删除具有缺失值的特征

数据挖掘机器学习熊猫特征选择数据清理缺失数据

2022-02-21 04:19:20

在实时数据集中，数据集中有许多可用的缺失值，我们还需要处理数据预处理。并且有很多方法可以最小化缺失值预处理的问题。

那么，我们可以使用mean, median，standerd deviation还是可以删除所有记录？

为什么很多人拒绝从数据集中删除完整的记录，为什么？

1个回答

缺失值并不一定意味着缺失信息。有时缺失值本身就代表了一个信息。例如：我们有一个数据集，它具有池区、编号等特征。房间和面积。现在池区有 90% 的价值缺失。您可以创建一个名为 is_pool 的新列，该列从 pool area 列中通过使用如果缺少 pool area 则使 is_pool =0 否则为 1 的条件来判断房子是否有 pool。

这是一个基本示例，根据我的经验，在进行 EDA 时最困难的事情是识别缺失值是否真的意味着没有信息，或者它是否完全代表其他东西。简而言之，了解为什么缺少该值。

其它你可能感兴趣的问题

上一篇如何将多个聚类算法应用于同一数据集并进行比较？下一篇使用带有 sklearn 的 pickle 文件时准确度大幅提高