机器算法验证 - 二项式检验的一个基本问题：我为什么要取和？ - 吾爱随笔录

二项式检验的一个基本问题：我为什么要取和？

机器算法验证假设检验二项分布

2022-04-18 06:53:14

我进行了一个实验来比较两个计算机黑白棋程序，即 $A$ 和 $B$ , 其中我让他们互相玩了 50 次 $A$ 韩元 $B$ 31 次。

现在我想测试一下 $A$ 强于 $B$ ，即概率 $p$ 的 $A$ 获胜 $B$ （无论是平还是输）大于1/2，具有显着性水平 $\alpha$ . 根据维基百科关于二项式检验的文章，我可以计算 $\frac{\binom{50}{31}+\dots+\binom{50}{50}}{2^{50}}$ 并将其与 $\alpha$ .

我不明白为什么我应该取一个总和，并考虑赢得 31、32、……或 50 次的概率。如果我正在处理一个连续的随机变量，那么从概率密度中取一个总和（即积分）肯定是有意义的，因为不存在变量的概率与观察到的完全一致的概率价值。但我正在处理离散变量，我可以准确计算出 31 次获胜的概率。

那么我为什么要取一笔（或者我真的必须取一笔）？

编辑：我纠正了我的错误并澄清了我的问题。

1个回答

Max 的评论回答了您的问题： $p$ -value 是你得到一个至少极端值的概率，这包括所有比你观察到的结果更不平衡的结果。是否考虑由您选择 $10-40$ 更不平衡 $31-19$ , 是使用双尾测试还是单尾测试，但必须包括 $40-10$ .

如果您忘记包含更不平衡的项，那么当您使用大量试验时，您将计算一个小概率并自动拒绝原假设。如果你玩 $1$ 万对相等的对手，最有可能的结果是平分，这个概率还是很小的。 ${1,000,000 \choose 500,000}/2^{1,000,000} \approx 1/(500\sqrt{2\pi}) \approx 0.000798 \lt 0.1\%.$ 每个分数都小于 $0.1\%$ 有机会发生！因此，如果您不添加更多极端结果，您只会确认发生了一些不太可能的事件，因为当您有很多可能性时 $1,000,000$ 游戏。如果你观察到分数 $500,300-499,700$ , 看到分数的实际机会至少与有利于 $A$ 什么时候 $A$ 和 $B$ 是平等的 $27.46\%$ ，并且得分至少有利于任一玩家的概率是其两倍，超过 $50\%$ .

有理由问为什么 $p$ -value 是这样定义的。Whiber 暗示 Neyman-Pearson 引理是相关的。另一种思考方式是我们只想有机会 $\alpha$ 如果原假设为真，则拒绝原假设。如果我们对极端结果的程度有一个线性排序，并且我们定义 $p$ -value 是至少得到极端结果的概率，然后是我们得到结果的事件 $p$ -值低于 $\alpha$ 概率小于 $\alpha$ .

在不同的统计过程中，有时您只计算特定结果的概率，例如先验分布的贝叶斯更新。是关于 $4$ 次可能有 $31-19$ 结果如果 $A$ 实际上是一个 $60-40$ 最喜欢的而不是偶数，所以你会加强你对概率的估计 $A$ 是一个 $60-40$ 最喜欢的一个因素 $4$ 相对于概率 $A$ 和 $B$ 是偶数，而不是观察事件的概率之间的比率至少是极端的。

其它你可能感兴趣的问题

上一篇在多项逻辑回归中选择参考因子有什么标准吗？下一篇回归分析中的数据清洗