对缺失数据使用数据插补更好还是使用不受缺失数据影响的分析(例如,HLM/混合效应建模)?

机器算法验证 混合模式 缺失数据 多重插补
2022-04-09 04:46:52

我用不同的治疗方法治疗了两组 100 人。我有大多数参与者的治疗前和治疗后数据(以及 1 个月的随访。我也有一些变量的每周数据,但可能包括也可能不包括这些)。一组约有10%的病例在治疗后退出,另一组有30%的病例在随访时退出。我想比较每组治疗的效果(即,随着时间的推移,组成员身份与症状的关系[连续])。请注意,辍学百分比不是功效分析的一部分(这将在另一项分析中考虑)。

  • 我被告知使用多重插补来帮助解决丢失数据的问题。此选项将涉及在数据插补之后进行重复测量方差分析,并尝试使用不同的模拟数据库将重复分析的结果汇总。
  • 我还被告知要使用分层线性建模(即混合效应建模),因为这种分析对于缺失数据非常稳健。

哪个选项更好?我应该使用模拟缺失值的方法(例如多重插补)还是使用我拥有的数据以及对缺失数据具有鲁棒性的方法?

这个问题让我很着迷,也对我的工作产生了重要影响!任何指导将不胜感激。让我们假设我可以(大部分)正确地进行分析。

编辑:另外我应该注意,另一种选择是使用两种方法(即插补后跟 HLM)。我很欣赏这是一个选择。如果这是您的建议,请继续说明原因,但如果两个选项互斥,请说明哪个更好。

1个回答

我会毫不犹豫地使用混合效果建模。首先,我不知道有一种简单的方法来汇集多自由度效应(如在具有两个以上水平的因子的 ANOVA 中)。此外,多重插补和全信息最大似然估计(后者是混合效应模型使用的)做出相同的假设(如多元正态性),因此往往会产生相似的结果(参见 Baraldi & Enders,2010,可在此处获得) .

选择更多的是方便的选择(正如上面引用的作者所指出的),在这种情况下,考虑到全信息最大似然的实现是多么容易,混合效应建模是一个自然的选择。此外,混合效应模型将允许您对随时间的变化产生随机效应,这意味着随时间的变化允许在参与者之间变化,而这在重复测量方差分析中是不可能的(重复测量方差分析有随机截距但固定斜率)。

顺便说一句,可能使多重插补更具吸引力的一种情况是,如果预测变量也存在缺失数据,因为混合效应建模软件中的全信息最大似然通常只处理因变量的缺失数据。

参考:

  • Baraldi, AN, & Enders, CK (2010)。现代缺失数据分析简介。学校心理学杂志48,5-37