如何比较从逻辑回归开发的模型的(概率)预测能力?

机器算法验证 物流 预测模型 模型评估 回归策略 计分规则
2022-04-15 21:19:24

我知道一些众所周知的措施是c统计,Kolmogorov-SmirnovD统计。然而,据我所知,这些统计数据只考虑了观察的等级顺序,并且在改变逻辑回归模型的截距下是不变的(例如在过采样校正练习中)。

在我当前的应用程序中,我需要依靠逻辑回归的准确性来预测事件的概率我只知道评估模型的概率预测能力的定性方法,即通过绘制事件的实际概率与预测概率的“QQ图”:

  1. 使用开发的模型对验证数据集进行评分。
  2. 根据预测概率对观测值进行排序并分组n根据其预测概率的等级进行存储桶。(第一个 1/n 会去第一个桶,下一个 1/n 会去下一个......)
  3. 计算每个桶的平均预测和实际事件概率。
  4. 创建预测与实际的散点图 - 每个存储桶一个点。

我想知道:

  1. 我上面提到的“QQ 图”是评估从逻辑回归开发的模型的预测性能的合法方法吗?如果是这样,我在哪里可以找到更多参考?
  2. 有没有已知的定量方法来评估这种模型的概率预测能力?
2个回答

有很多好方法可以做到这一点。这里有些例子。这些方法在 Rrms包中实现(函数val.prob、、、calibratevalidate

  1. 黄土非参数全分辨率校准曲线(无分箱)
  2. Spiegelhalter 的测试
  3. Brier 分数(适当的准确度分数 - 二次分数)
  4. 广义的R2(与偏差相关的正确准确度分数)
  5. 校准斜率和截距

为了比较两个模型的歧视,似然比χ2测试是金标准。

上述四种方法和其他方法都包含在我的《回归建模策略》 (2015-09 年出版)一书的第二版和随书附送的课程笔记中,可从https:/上的讲义链接获得/biostat.app.vumc.org/wiki/Main/RmS

Brier 分数可以分解为区分和校准部分。与 Brier 分数和 Spiegelhalter 检验一起,非参数校准曲线可以检测截距中的错误。

AUROC(与 Kolmogorov Smirnov 相关)不仅对系数的变化保持不变,而且对于任何保序变换都是不变的,因此它可以说明您预测科目排名的好坏。

检查您的概率是否被很好地预测的测试是例如 Hosmer-Lemeshow 测试(参见例如http://media.hsph.edu.vn/sites/default/files/Statistics%20eBook%20-%20Hosmer,%20Lemeshow% 20-%20Applied%20Logistic%20Regression.pdf)。

可能还有其他测试,但这取决于您的问题。例如,如果您在预测公司失败的情况下使用逻辑回归,并且您的目标不是预测概率而是预测评级“类别”。