二项式检验的一个基本问题:我为什么要取和?

机器算法验证 假设检验 二项分布
2022-04-18 06:53:14

我进行了一个实验来比较两个计算机黑白棋程序,即AB, 其中我让他们互相玩了 50 次A韩元B31 次。

现在我想测试一下A强于B,即概率pA获胜B(无论是平还是输)大于1/2,具有显着性水平α. 根据维基百科关于二项式检验的文章,我可以计算(5031)++(5050)250并将其与α.

我不明白为什么我应该取一个总和,并考虑赢得 31、32、……或 50 次的概率。如果我正在处理一个连续的随机变量,那么从概率密度中取一个总和(即积分)肯定是有意义的,因为不存在变量的概率与观察到的完全一致的概率价值。但我正在处理离散变量,我可以准确计算出 31 次获胜的概率。

那么我为什么要取一笔(或者我真的必须取一笔)?

编辑:我纠正了我的错误并澄清了我的问题。

1个回答

Max 的评论回答了您的问题:p-value 是你得到一个至少极端值的概率,这包括所有比你观察到的结果更不平衡的结果。是否考虑由您选择1040更不平衡3119, 是使用双尾测试还是单尾测试,但必须包括4010.

如果您忘记包含更不平衡的项,那么当您使用大量试验时,您将计算一个小概率并自动拒绝原假设。如果你玩1万对相等的对手,最有可能的结果是平分,这个概率还是很小的。(1,000,000500,000)/21,000,0001/(5002π)0.000798<0.1%.每个分数都小于0.1%有机会发生!因此,如果您不添加更多极端结果,您只会确认发生了一些不太可能的事件,因为当您有很多可能性时1,000,000游戏。如果你观察到分数500,300499,700, 看到分数的实际机会至少与有利于A什么时候AB是平等的27.46%,并且得分至少有利于任一玩家的概率是其两倍,超过50%.

有理由问为什么p-value 是这样定义的。Whiber 暗示 Neyman-Pearson 引理是相关的。另一种思考方式是我们只想有机会α如果原假设为真,则拒绝原假设。如果我们对极端结果的程度有一个线性排序,并且我们定义p-value 是至少得到极端结果的概率,然后是我们得到结果的事件p-值低于α概率小于α.

在不同的统计过程中,有时您只计算特定结果的概率,例如先验分布的贝叶斯更新。是关于4次可能有3119结果如果A实际上是一个6040最喜欢的而不是偶数,所以你会加强你对概率的估计A是一个6040最喜欢的一个因素4相对于概率AB是偶数,而不是观察事件的概率之间的比率至少是极端的。