使用多重插补技术后如何合并 c-statistic/AUROC(或任何有界变量)?

机器算法验证 多重插补 汇集
2022-04-12 20:13:34

我正在进行一项研究,我有兴趣预测医院环境中患者的二分结果(不良结果是/否)。具体来说,我想比较入院第一周的不同总结措施如何影响模型的辨别力,由 c 指数(也称为接收器操作曲线下的面积或 AUROC)测量。

然而,正如临床研究中通常发生的那样,我缺少有关预测变量和结果变量的数据。我决定通过使用多重插补技术来解决这个问题。通过这种方式,我创建了 50 个替换缺失值的数据集(使用 R 中的“老鼠”包)。

使用适当的函数,我能够获得每个插补数据集的置信区间(和方差)的 c 统计量。使用“普通”鲁宾斯规则来汇集正态分布的变量,我现在将平均点估计并调整插补数据集之间方差的总方差。现在我遇到了问题:我不确定我是否可以将 50 个 c 指数视为正态分布并计算点估计和适当置信区间所需的方差。

我曾尝试寻找答案,但我只发现以下三个建议用于(略微)不同的情况:

  1. 无论如何都要合并假设正态分布(通常应用于其他有界或绝对非正态分布的统计数据);
  2. 查看所有插补数据集的统计分布,并将 c-index 中值作为点估计,同时使用第 2.5 和第 97.5 百分位值作为 95% 置信区间的下限和上限。
  3. 将所有 c 指数和方差转换为无界尺度,假设正态分布合并转换后的值,最后转换回有界 c 指数尺度(如在Siregar S - Eur J Cardiothorac Surg中通过对数转换观察到的:预期比率所建议的那样2012 年)。对于有界 c 索引,这可以通过 c 索引的 logit 变换来完成。[0,1]

任何帮助将不胜感激。

2个回答

c-index 是预测辨别力的有用度量,因为它易于解释且至少具有中等敏感性。它不是一个全信息正确准确度评分规则。比较两个模型不够灵敏。所以我建议你使用所有可用的部分信息来获得最佳模型(例如,多重插补,插补的数量至少是不完整记录的百分比),然后尝试量化该单一模型的价值。这说起来容易做起来难,但您可以从全局零假设的整体 Wald 统计量开始,即没有任何预测变量与之相关联Y. 有几篇论文展示了如何从 Wald 推导出无单位歧视指数χ2统计。还可以快速浏览一下g-我的回归建模策略书和注释中的索引。

在询问并环顾四周后,我被指出以下关于Debray TPA 等人在英国医学杂志 2016 中对预测模型(生物医学研究)的荟萃分析的参考资料。

在附录 9 中,作者解释了如何在不同研究中合并多个 c 指数,并说明如何获得总方差及其组成部分(方差内和方差之间)。所有这些都基于使用 logit 转换作为第一步转换值。其次,与鲁宾针对不同插补集的规则相比,跨研究的汇集以类似的方式发生。最后,作者将他们的估计和置信区间范围反向转换为常规尺度。

正如@joe-74 在他的评论中指出的那样,以及 Debray 等人在参考文献中指出,这完全取决于您是否会假设 c-index 估计值(或您想要合并的其他估计值)周围的正态分布找到一个所述估计的低方差。为了避免非正态分布的(c-index)标度区域(例如,接近 1.0 界限),这个假设是必要的。此外,假设正态性将导致对称置信区间,它与估计本身存在相同的问题(即在[0,1])。为了明确这一点,0.75 和 0.80 的 c 指数之间的一致对差异小于 0.90 和 0.95 之间的差异。

其次,对我来说,汇集多个研究或多个插补数据集的设置并不重要(如果您不这么认为,请发表评论)。

因此,虽然这可能是固执己见(我仍然没有明确的参考资料,其中实际上研究了由于未经转换的汇集而导致的可能的偏差或错误),但我宁愿不假设这种正常性的尺度本质上是非正常的([0,1]有界)。

附带说明一下,使用此策略,值仅在一侧有界(例如观察到的:预期的比率[0,]) 可以通过对数转换进行转换(如 Siregar 等人的参考资料所述)。

总而言之,我建议(我自己)将插补数据集中的 c 指数进行 logit 转换,并将其应用于这些转换后的值(包括计算方差和置信区间)。最后,将结果值反向转换为最终的汇总估计值。