我一直在阅读“数据科学设计手册”一书(Steven S. Skiena 着),我遇到了一个解释如何应用贝叶斯定理的例子,这让我感到困惑并怀疑它可能是错误的。示例如下:
假设 A 是人 x 实际上是恐怖分子的事件,而 B 是基于特征的分类器的结果,该分类器决定 x 是否看起来像恐怖分子。在对 1,000 人(其中一半是恐怖分子)的数据集进行训练/评估时,分类器达到了令人羡慕的准确率,例如 90%。分类器现在说 Skiena 看起来像个恐怖分子。Skiena 真的是恐怖分子的概率是多少?这里的关键见解是,“x 是恐怖分子”的先验概率非常非常低。如果有一百个恐怖分子在美国活动,那么 P(A) = 100/300,000,000 = 3.33 × 10−7 。恐怖分子探测器说是的概率 P(B) = 0.5,而探测器说是的概率 P(B|A) = 0.9。乘以这个得出我是坏人的可能性仍然很小,
然而,对我来说似乎不正确。应该是恐怖分子探测器在对从美国人口中随机选择的人(例如Skiena)进行锻炼时说“是”的概率。如果我理解正确,这作者使用的是分类器评估数据集中恐怖分子的百分比,这不是一回事,原因如下:
- 这是一个样本,不是随机选择与某些人口(斯基纳是从中选择的)相当的,而是专门选择来包含上述恐怖分子比例的。
- 这个比率不是评估数据集中看起来像恐怖分子的人的比率(即分类器对样本中的随机人说是的概率),而是样本中实际恐怖分子的比率。
我的理解是,为了计算更恰当地说,必须从美国人口中抽取一个随机样本(假设这是 Skiena 的来源地),然后对它们运行分类器并计算分类器表示同意的人的百分比。
我的想法是正确的还是我错过了什么?