识别数据中的 MCAR、MNAR 和 MAR

数据挖掘 Python 预处理 缺失数据 数据插补
2022-02-17 10:45:49

如果我在数据集中有缺失值,我不能盲目地用均值/中值/众数或任何其他技术来估算它们。我必须确定它们是哪种缺失值,即:

MCAR(完全随机缺失) - 缺失值与任何其他变量之间没有关系

MNAR(非随机缺失)-缺失值和其他变量之间存在的关系以及缺失数据不是随机的。

MAR(随机缺失) - 缺失值与其他变量之间存在关系,但缺失数据是随机的。

为了识别缺失数据的类型,我尝试了以下方法。我绘制了以下情节:

在此处输入图像描述

这里的特征BsmtQual有 nan 值,所以我根据依赖特征绘制了 nan 值SalePrice0 表示它不是 nan 值,1 表示它是 nan 值。显然,nan 值和目标变量之间存在某种关系,因为具有缺失值的房屋的售价低于具有非缺失值的房屋。所以这个缺失就是MNAR,我会使用MNAR技术来处理这个特性的 nan 值。

这个过程对吗?如果没有的话,我可以确定我有什么样的缺失数据(除了 Little's Test)?

0个回答
没有发现任何回复~