雨果,
考虑到一个非常关键的假设,这应该是相对简单的,我们将得到这个假设。让我们建立一些符号。让我们将定义为通过从您的集合中随机选择一个数据点并使用您的分类器对其进行分类而获得的随机变量。 作为随机变量,通过从您的集合中随机选择一个数据点并获得它的黄金标准类标签而获得。作为随机变量,通过从您的集合中随机选择一个数据点并获取其真实标签而获得。XYZ
现在让我们总结一下我们目前掌握的信息。我们知道或相信我们知道的事情是
P(X|Y=1),P(X|Y=0),P(Y|Z=1),P(Y|Z=0).
这些由您测量或假设的敏感性和特异性值给出。所以更简洁地我们知道:
我们想知道的是,你的分类器的真正敏感性和特异性。如果我们可以得到 P(X,Y|Z) ,我们可以通过对所有(两个)可能值求和 (X,Y|Z) 中获得它。这是条件概率定义的一个简单结果,即
[如果这对你来说是新的,请删除 Z 并且它会很熟悉]。但我们不知道P(X|Y),P(Y|Z)
P(X|Z)P(X,Y|Z)YP(X,Y|Z)P(X,Y|Z)=P(X|Y,Z)⋅P(Y|Z),
P(X|Y,Z). 因此,关键的假设,没有它我认为我们不能做任何事情(除非你知道个人的真实标签,在这种情况下你应该训练它),是是条件独立的,给定,在这种情况下,这是真正标签影响您的预测的唯一方式是影响您用来训练预测器的(黄金)标签。X,ZYP(X|Y,Z)=P(X|Y)
因此,如果您对这个假设感到满意,那么我们可以继续计算:
P(X=1|Z=1)=P(X=1|Y=1)P(Y=1|Z=1)+P(X=1|Y=0)P(Y=0|Z=1)=0.84⋅0.95+0.05⋅0.05
我将把其他计算留给你。希望这有帮助!