热甲板插补:双重插补的有效性和回归的甲板变量选择

机器算法验证 缺失数据 数据插补 多重插补
2022-03-29 05:34:46

背景:

我有一个包含 212 个观察值的数据集,其中有很多缺失值。大多数 IV 和 DV 在本质上都是分类的(DV 是序数的)。有 3 个 DV 和大约 30 个 IV。我的意图是进行序数逻辑回归。逐列表删除仅保留 42 个观察值,因此我决定使用热卡插补来填充缺失值。我在热甲板插补期间选择了与甲板变量相似的变量(甲板变量应该始终是分类的,据我所知,最多应该有 5 个甲板变量)。

这是我的查询:

1)当我通过热甲板进行一次估算时,169 个观测值被完全填满。如果我将这些插补值用于另一个热甲板插补,那么所有 212 个观测值将完全填充。但我不确定使用估算值进行进一步估算是否有效。任何人都可以建议吗?

2)有人建议我(根据他的经验)使用 3 个 DV 作为背景或甲板变量来估算所有 DV 和所有 IV,因为这可能有助于我的回归结果。我可以知道你对此的评论吗?

3)如果我看到连续 IV 的几乎所有值(除了极少数)都是 0.10、0.20、0.30、0.40、0.50、0.60、0.70、0.80、0.90 等,那么估算它们不是更好吗通过热甲板而不是通过 EM(因为热甲板只会用它的现有值估算一个变量)?

1个回答

热甲板通常是获得合理估算的好主意,因为它产生的估算来自观察到的数据。但是,为缺失数据填充单个值会产生过低的标准误差和P值。对于正确的统计推断,可以使用多重插补。很容易将热甲板插补与多重插补结合使用。最流行的技术被称为预测均值匹配,并已在各种平台上实现。