Bradley Efron 在他的科学文章中关于 21 世纪贝叶斯定理的令人费解的观察

机器算法验证 贝叶斯 错误发现率
2022-03-16 23:18:06

Effron 先生在《科学》杂志上发表了一篇有趣的文章,标题很吸引人“21 世纪的贝叶斯定理”。这篇文章很短,可以在这里找到:http ://web.ipac.caltech.edu/staff/fmasci/home/astro_refs/Science-2013-Efron.pdf

Efron 先生介绍了一个案例,其中检查了 6,033 例基因,其中 28 例的 az 评分高于 3.4。然后他发表以下声明:

“这里的决定性事实是,如果确实所有基因都是空的,我们预计只有 2.8 个 z 值超过 3.40,也就是说,只有观察到的实际数量的 10%。这让我们回到贝叶斯。FDR 算法的另一种解释是,在 z 值超过 3.40 的情况下,贝叶斯空值概率为 10%。”

首先,z > 3.4 的概率在标准正态分布中为 0.00034。因此,假设所有这些都是 Null,我们预计平均 6,033 个基因中有 6,033 x 0.00034 = 2.03 个基因的 z > 3.4。为什么埃夫隆先生将这个数字提高到 2.8?

现在让我们假设 2.8 是正确的值并继续 Efron 先生的论证。Efron 先生说,“在 z 值超过 3.40 的情况下,贝叶斯空值概率为 10%。”

在这种情况下,他如何定义贝叶斯概率?一般来说,贝叶斯定理指出 P(A|B) = P(A) * P(B|A)/P(B),其中 A 和 B 是事件。在这种情况下,他如何定义 A 和 B,以及如何为它们分配概率?

我采取了不同的策略并推理如下:假设 Null 为真,z > 3.4 的观察概率 p 为 p = 0.00034。那么,当样本为 6,033 时,在 Null 下 z > 3.4 的观察次数可以视为 6,033 次试验中的成功次数,其中每个成功的概率为 0.00034。这个数字由二项分布建模,p = 0.0034,大小 = 6,033。使用二项分布可以表明,在 6,033 个样本的样本中观察到 z > 3.4 的 28 个案例的概率实际上为零,而且肯定远低于 10%。

非常感谢您的回复。

0个回答
没有发现任何回复~