针对不完美的金标准测试分类器的天真敏感性和特异性

机器算法验证 分类 敏感性-特异性
2022-04-18 18:02:29

我正在为特定条件编写一个监督分类器。我的“黄金标准”有两组数据,我将根据这些数据测试我的分类器:

  • 一个正集,其中所有样本都有条件;
  • 一个负集,其中没有一个条件。

出于说明目的,这里是我的分类器的结果,也就是混淆矩阵:

| TP=354 | FP= 20 |
|--------|--------|
| FN= 69 | TN=404 |

这给出了灵敏度 = 84% 和特异性 = 95%

问题

我不确定黄金标准数据本身是否具有 100% 的敏感性和 100% 的特异性。我估计阳性条件的敏感性为 95%,阴性条件的特异性为 90%。

如何调整我的结果?或者如何传达这种不确定性?

1个回答

雨果,

考虑到一个非常关键的假设,这应该是相对简单的,我们将得到这个假设。让我们建立一些符号。让我们将定义为通过从您的集合中随机选择一个数据点并使用您的分类器对其进行分类而获得的随机变量。 作为随机变量,通过从您的集合中随机选择一个数据点并获得它的黄金标准类标签而获得。作为随机变量,通过从您的集合中随机选择一个数据点并获取其真实标签而获得。XYZ

现在让我们总结一下我们目前掌握的信息。我们知道或相信我们知道的事情是

P(X|Y=1),P(X|Y=0),P(Y|Z=1),P(Y|Z=0).
这些由您测量或假设的敏感性和特异性值给出。所以更简洁地我们知道: 我们想知道的是,你的分类器的真正敏感性和特异性。如果我们可以得到 P(X,Y|Z) ,我们可以通过所有(两个)可能值求和 (X,Y|Z) 中获得它。这是条件概率定义的一个简单结果,即 [如果这对你来说是新的,请删除 Z 并且它会很熟悉]。但我们不知道
P(X|Y),P(Y|Z)
P(X|Z)P(X,Y|Z)YP(X,Y|Z)
P(X,Y|Z)=P(X|Y,Z)P(Y|Z),
P(X|Y,Z). 因此,关键的假设,没有它我认为我们不能做任何事情(除非你知道个人的真实标签,在这种情况下你应该训练它),是是条件独立的,给定,在这种情况下,这是真正标签影响您的预测的唯一方式是影响您用来训练预测器的(黄金)标签。X,ZYP(X|Y,Z)=P(X|Y)

因此,如果您对这个假设感到满意,那么我们可以继续计算:

P(X=1|Z=1)=P(X=1|Y=1)P(Y=1|Z=1)+P(X=1|Y=0)P(Y=0|Z=1)=0.840.95+0.050.05

我将把其他计算留给你。希望这有帮助!