如果我在数据集中有缺失值,我不能盲目地用均值/中值/众数或任何其他技术来估算它们。我必须确定它们是哪种缺失值,即:
MCAR(完全随机缺失) - 缺失值与任何其他变量之间没有关系
MNAR(非随机缺失)-缺失值和其他变量之间存在的关系以及缺失数据不是随机的。
MAR(随机缺失) - 缺失值与其他变量之间存在关系,但缺失数据是随机的。
为了识别缺失数据的类型,我尝试了以下方法。我绘制了以下情节:
这里的特征BsmtQual
有 nan 值,所以我根据依赖特征绘制了 nan 值SalePrice
。0 表示它不是 nan 值,1 表示它是 nan 值。显然,nan 值和目标变量之间存在某种关系,因为具有缺失值的房屋的售价低于具有非缺失值的房屋。所以这个缺失就是MNAR,我会使用MNAR技术来处理这个特性的 nan 值。
这个过程对吗?如果没有的话,我可以确定我有什么样的缺失数据(除了 Little's Test)?