使用 Brier 评分和对数评分规则的不同结果

机器算法验证 预测 模型比较 计分规则
2022-04-03 20:51:51

XiB(πi),for i=1,2,,n. 我有两个模型,我想比较其中哪个预测更好。

模型 1:以最大似然估计参数。

模型 2:使用贝叶斯估计参数。

我使用Brier 评分和对数评分规则进行比较。结果是:

>> Model 1: 0.2505 (Brier), 0.6350 (minus log-score)
>> Model 2: 0.2544 (Brier), 0.6028 (minus log-score)

分数越小,模型越好。因此,根据 Brier Score 模型 1 更好,根据 log-score 模型 2 更好。

我想问一下,为什么会有这种差异。此外,是否有一篇论文用于学习如何比较频率模型与贝叶斯模型的预测能力?

1个回答

如果不涉及问题的贝叶斯与常客部分,两个正确的准确度分数会奖励不同的东西,它们的行为不同也就不足为奇了。对数分数奖励更多朝着正确方向的极端预测。由于采用零的对数,这个分数可能会被错误方向的概率 0 或 1 的单一预测破坏。对数规则是黄金标准优化标准的重新调整(在没有其他知识的情况下贝叶斯将在先验分布中使用)对数似然,因此从某种意义上说,它是用于二进制的最佳准确度分数Y.