随机丢失与不随机丢失:如果两者兼而有之怎么办?(一个是否暗示另一个?)

数据挖掘 数据集 数据清理 缺失数据
2022-03-10 00:05:55

我的理解是:

  • 随机缺失:一个变量的值是否缺失取决于其他变量的值。
  • 非随机缺失:当变量值缺失的倾向取决于该值时。

但是,当变量相互关联时,它们通常是怎样的呢?

为了使事情更具体,让我们考虑一个收集温度、湿度和二氧化碳数据的实验,假设它们之间的关系是T = H = C。

假设我们缺少低于 50 的所有 CO2 变量,因为传感器冻结。

在这种情况下,它是

随机缺失:因为 CO2 的缺失倾向取决于温度和湿度的值。非随机缺失:因为所有低于 50 的 CO2 值均缺失。

由于变量是相互关联的,随机缺失 => 非随机缺失。

还是我在某个地方的推理有误?

1个回答

Missing at random( MAR) 表示变量的 NA 频率从不依赖于变量本身的值。

因此,在您的示例中,数据将是Missing not at random( MNAR)!

为什么这种区别很重要?

因为当数据是MNAR我们必须确定缺失值和值之间的关系,但是如果数据是真实的MAR,或者MCAR我们可以忽略 NA 或使用简单的方法(如均值插补)来估算它们。

正确识别数据是MCARMAR或者MNAR是正确识别如何处理它的唯一方法!

但是东西怎么可能是MAR而不是MNAR呢?

想象一下,您正在询问老年人的出生月份,但还要测量他们是否患有老年痴呆症或类似的记忆障碍。

出生月份可能是MAR因为它是否缺失与阿尔茨海默病变量相关,但我没有关于这个事实的实际出生月份的信息。

我可以从其他变量中预测数据是否没有丢失,但不能预测它的实际值是多少!