Max 的评论回答了您的问题:p-value 是你得到一个至少极端值的概率,这包括所有比你观察到的结果更不平衡的结果。是否考虑由您选择10−40更不平衡31−19, 是使用双尾测试还是单尾测试,但必须包括40−10.
如果您忘记包含更不平衡的项,那么当您使用大量试验时,您将计算一个小概率并自动拒绝原假设。如果你玩1万对相等的对手,最有可能的结果是平分,这个概率还是很小的。(1,000,000500,000)/21,000,000≈1/(5002π−−√)≈0.000798<0.1%.每个分数都小于0.1%有机会发生!因此,如果您不添加更多极端结果,您只会确认发生了一些不太可能的事件,因为当您有很多可能性时1,000,000游戏。如果你观察到分数500,300−499,700, 看到分数的实际机会至少与有利于A什么时候A和B是平等的27.46%,并且得分至少有利于任一玩家的概率是其两倍,超过50%.
有理由问为什么p-value 是这样定义的。Whiber 暗示 Neyman-Pearson 引理是相关的。另一种思考方式是我们只想有机会α如果原假设为真,则拒绝原假设。如果我们对极端结果的程度有一个线性排序,并且我们定义p-value 是至少得到极端结果的概率,然后是我们得到结果的事件p-值低于α概率小于α.
在不同的统计过程中,有时您只计算特定结果的概率,例如先验分布的贝叶斯更新。是关于4次可能有31−19结果如果A实际上是一个60−40最喜欢的而不是偶数,所以你会加强你对概率的估计A是一个60−40最喜欢的一个因素4相对于概率A和B是偶数,而不是观察事件的概率之间的比率至少是极端的。