数据挖掘 - 随机丢失与不随机丢失：如果两者兼而有之怎么办？（一个是否暗示另一个？） - 吾爱随笔录

数据挖掘数据集数据清理缺失数据

2022-03-10 00:05:55

我的理解是：

但是，当变量相互关联时，它们通常是怎样的呢？

为了使事情更具体，让我们考虑一个收集温度、湿度和二氧化碳数据的实验，假设它们之间的关系是T = H = C。

假设我们缺少低于 50 的所有 CO2 变量，因为传感器冻结。

在这种情况下，它是

随机缺失：因为 CO2 的缺失倾向取决于温度和湿度的值。非随机缺失：因为所有低于 50 的 CO2 值均缺失。

由于变量是相互关联的，随机缺失 => 非随机缺失。

还是我在某个地方的推理有误？

1个回答

Missing at random( MAR) 表示变量的 NA 频率从不依赖于变量本身的值。

因此，在您的示例中，数据将是Missing not at random( MNAR)！

为什么这种区别很重要？

因为当数据是MNAR我们必须确定缺失值和值之间的关系，但是如果数据是真实的MAR，或者MCAR我们可以忽略 NA 或使用简单的方法（如均值插补）来估算它们。

正确识别数据是MCAR，MAR或者MNAR是正确识别如何处理它的唯一方法！

但是东西怎么可能是MAR而不是MNAR呢？

想象一下，您正在询问老年人的出生月份，但还要测量他们是否患有老年痴呆症或类似的记忆障碍。

出生月份可能是MAR因为它是否缺失与阿尔茨海默病变量相关，但我没有关于这个事实的实际出生月份的信息。

我可以从其他变量中预测数据是否没有丢失，但不能预测它的实际值是多少！

其它你可能感兴趣的问题