关于某人的额外犯罪报告是否应该改变我们对最初犯罪报告的怀疑程度?

机器算法验证 缺失数据 偏度 不确定
2022-03-15 20:55:01

编辑:请注意,这个问题不是关于同一事件的多个不可靠证人,而是多个事件,每个事件只有一个证人。单独指控事件的累积是否应该改变我们对任何个别指控事件的怀疑程度?

这是一个关于许多人对犯罪和诬告所做的非正式统计推理的问题。我想知道“常识”响应是否具有数学意义。

这是禁酒令的中间。一位著名的政治家被指控在聚会期间喝了大量的酒。他说,他只是在医生严格建议后才服用药物。他说,这些都是他的政敌的粗俗、完全错误的指控。

多数人说:“不比谣言可靠,他有很多政敌,有理由诬告他,还有很多疑问。”

然后其他一些人对他提出了同样的指控;不同的时间,不同的地方,不同的聚会,但总是喝很多。

在这些报道之后,大多数人说,“只有一个指控者,我们是怀疑的;现在,有许多额外的指控,毫无疑问第一个指控是真的。”

这种常见的非正式统计推理是否合理?

如果你用贝叶斯推理来处理这个问题,请记住,问题不是“额外的指控是否会改变第一个指控为假的可能性?”而是“额外的指控是否会导致我们的水平发生很大变化?对第一个指控有疑问?”

现在让我们添加一系列先前的假设。它们中的任何一个都改变了非正式统计推理的可靠性吗?

  1. 饮酒量高度倾斜,少数人饮用大部分酒精。(这个假设在今天仍然正确,因为它发生了,尽管这种偏差可能没有禁酒令期间那么极端。)

这种假设是否会对我们的怀疑随着新指控的出现而改变的方式产生任何影响?

  1. 绝大多数人——比方说,超过 99%——都是诚实的,绝不会做出这样的虚假指控。(请注意,我们的大多数非正式推理者对此都是错误的;他们假设的不诚实比实际存在的要多得多。)

那会有什么不同吗?

最后:

  1. 控告者的分布也有偏差:大多数可以提出真实指控的人都闭口不言,因为承认自己参加了聚会会损害自己的声誉;大多数提出指控的人都会提出真正的指控;极少数人一再诬告。但是,我们没有证据可以确定原告属于哪个群体。

那会有什么不同吗?如果会,偏斜量会产生什么影响?

如果这些因素产生影响,那么哪一个影响最大?

我热切地等待 Stack Exchange 最优秀的人才的意见。再一次记住,问题是在更多的指控浮出水面之后,我们对最初指控的怀疑程度是否应该改变一点、很多,或者根本不改变。

1个回答

处理该问题的方法可能如下:

存在一个伯努利随机变量Yi,它模拟政治家是否喝醉了(Yi=1) 或不 (Yi=0) 在特定聚会期间,由i. 由于在月球下没有什么是真正不可能的(聚会通常在夜间举行),因此存在一些严格的正概率pi>0那个政治家在聚会上喝酒了i(这也符合克伦威尔的规则)。由于聚会只能按顺序参加,这些随机变量的集合形成了一个随时间变化的随机过程,{Yi}iN. 请注意,很难说该过程的元素是独立的,因为毕竟我们谈论的是同一个人。

这个过程一般公众是看不到的。相反,我们观察到的是同一政党的参与者就政客是否喝酒发表公开声明的过程。表示这个过程{Xi}iN. 我们假设没有针对同一方的相互冲突的陈述。所以要么有人宣布政客喝醉了,要么X取值0.

确定性问题是:是否 Xi=1?Yi=1. 但是在统计框架中,我们只能将问题相对化并将其转化为问题:Xi=1?pi>pi1.

我们可以查看X——过程作为“不完美的测量”Y-过程 -这里的关键点是我们如何评估测量误差。OP 在问题的第二部分陈述的各种“先验假设”与样本可靠性的评估有关。允许否定前面的陈述的冲突陈述再次影响我们评估样本可靠性的方式。

假设一些可靠性,积累的实现X- 进程在哪里Xi=1, 必然会增加政客是/已经成为饮酒者的概率,这可以映射到结构性中断是否发生的问题,给定样本:毕竟人们可能会随着时间的推移而改变,因此政客可能参加过许多不喝酒的聚会,但在某些时候情况发生了变化。但这是什么时候发生的?

因此,争辩说这些信号也可能使我们修改过去对此事所做的任何评估并不是错误的推理,因为它与结构性中断实际发生的时间有关——而且可能是这样的情况确实发生了第一次宣布它确实发生了,尽管当时,由于证据不足,我们并没有承认太多。

所以,在这个框架下,这种“常见的非正式统计推理”并不是无效的。

...现实生活也同意:比如说,涉嫌欺诈。再次。然后再次。最后,审计员出现了。为什么他们会像他们那样回顾过去的交易?因为他们认为“欺诈信号变得足够强以便我们现在才进行调查的事实(鉴于资源有限、重要性原则等),并不意味着过去没有进行欺诈。包括过去的具体情况过去特别指控欺诈的地方”。编辑是否陷入了某种逻辑或统计谬误?如果审计结果的经验有任何迹象,我不会这么说。