什么是“合适”的 Brier 分数和 Harrell 的 C 指数

机器算法验证 生存 拟合优度 cox模型 网络 brier分数
2022-03-29 21:27:42

这是我最初在 r-help 上发布的一个问题,但在这里更适合。我将发布我从 Winsemius 博士那里收到的问题和答案,如果您能提供任何其他答案,我将不胜感激。

我正在使用 Brier 评分(“peperr”)和 Harrell 的 C 指数(“Hmisc”)评估生存模型。我想知道:

  1. 根据这些分数,什么会被认为是“合适的”(就像我们在线性回归中对 R 平方的启发式水平)?

  2. 是否有任何文件可以引用(我找不到)?

  3. 是否有任何论文可以引用,讨论在生存分析中使用传统报告进行模型拟合的局限性,而不是这些措施?

David Winsemius 博士回答:

  1. Frank Harrell 的优秀著作《Regression Modeling Strategies》对“拟合优度”和模型比较的原则进行了广泛的讨论。对于 Rhelp 来说,这既太复杂又离题。另一个要查阅的文本是 Steyerberg 的“临床预测模型”。

  2. 我预测 RMS 参考书目将是您开始搜索的绝佳场所。

尽管他的名字附在他所谓的“c-index”上,但我认为没有人可以称弗兰克哈雷尔为该措施的支持者或任何“竞争对手”。它实际上只是一个修饰/转换的 AUC。我从阅读他的书和听演讲中得到的信息是,人们应该对敏感性进行生物学测试,并仔细研究候选预测因子与感兴趣的结果之间的功能关系。他非常轻蔑地谈论自动程序。

2个回答

先前关于广义线性模型中 GOF 度量问题的 CV 帖子:

找出逻辑回归分析的伪 R 平方值

哪个伪度量是要报告逻辑回归(Cox & Snell 或 Nagelkerke)的度量?R2

解决模型不确定性

比较基于 AUROC 或准确性的分类器?

“合身度”是一个难以捉摸的概念。任何一组数据都可以完美地拟合复杂的饱和模型,但这样的模型尽管很完美,但通常是无用的。应用此类测试通常会完全忽略适合的模型。我发现当 Anderson-Darling 和 Kolmogorov-Smirnov 检验真正被用作“正态性检验”时,它们被称为“拟合优度检验”,这很奇怪。

模型需要经过验证和校准,而 GOF 测量通常很少告诉你这些方面的信息。(顺便提一下,“rms”函数print.cph还报告 Brier 分数以及伪 R^2 和 Somers-D 作为“歧视指数”。它不报告 c-index,可能是因为 Somers -D 是等价的,并且在历史上早于它,Harrell 厌倦了人们滥用它。)

您会注意到,弗兰克告诉您,您在较早的 rhelp 发布中提出的策略,您建议采用“最佳”glmnet 模型,然后逐步向前和向后减少是不好的统计实践。部分问题是您从针对预测优化的方法(惩罚 glmnet)中获取结果,然后应用很可能降低其预测能力的程序。

你的低 Brier 分数是我在研究中一直看到的。我使用大型数据集,其中感兴趣的结果相当罕见(对于基本健康的人来说,死亡率超过 5-12 年)。即使是一个好的模型也只能预测大多数死亡者的死亡率为 4-5%,尽管许多变量非常重要,但“错误率”仍然很高。模型比较措施(尤其是偏差)比任何 GOF 或歧视措施都更好地指导决策。

找到可接受的 Brier 分数更容易(但仍然不是很容易)。一般来说,这都是相对的。一个模型是有用的,因为它比替代品更好。现在有了纯粹的校准精度,您有时可以判断一个模型是不合适的,无论比较者如何。