我正在进行一项研究,我有兴趣预测医院环境中患者的二分结果(不良结果是/否)。具体来说,我想比较入院第一周的不同总结措施如何影响模型的辨别力,由 c 指数(也称为接收器操作曲线下的面积或 AUROC)测量。
然而,正如临床研究中通常发生的那样,我缺少有关预测变量和结果变量的数据。我决定通过使用多重插补技术来解决这个问题。通过这种方式,我创建了 50 个替换缺失值的数据集(使用 R 中的“老鼠”包)。
使用适当的函数,我能够获得每个插补数据集的置信区间(和方差)的 c 统计量。使用“普通”鲁宾斯规则来汇集正态分布的变量,我现在将平均点估计并调整插补数据集之间方差的总方差。现在我遇到了问题:我不确定我是否可以将 50 个 c 指数视为正态分布并计算点估计和适当置信区间所需的方差。
我曾尝试寻找答案,但我只发现以下三个建议用于(略微)不同的情况:
- 无论如何都要合并假设正态分布(通常应用于其他有界或绝对非正态分布的统计数据);
- 查看所有插补数据集的统计分布,并将 c-index 中值作为点估计,同时使用第 2.5 和第 97.5 百分位值作为 95% 置信区间的下限和上限。
- 将所有 c 指数和方差转换为无界尺度,假设正态分布合并转换后的值,最后转换回有界 c 指数尺度(如在Siregar S - Eur J Cardiothorac Surg中通过对数转换观察到的:预期比率所建议的那样2012 年)。对于有界 c 索引,这可以通过 c 索引的 logit 变换来完成。
任何帮助将不胜感激。