我很难理解这个公式的来源。这对我来说似乎没有任何意义。有人可以对此有所了解:
的自然估计量是,成功率相同。由于只是乘以一个常数,所以具有近似正态分布。和 。标准化,这意味着:
有人可以推导出这个等式,以便对以前从未见过的人有意义吗?
我很难理解这个公式的来源。这对我来说似乎没有任何意义。有人可以对此有所了解:
的自然估计量是,成功率相同。由于只是乘以一个常数,所以具有近似正态分布。和 。标准化,这意味着:
有人可以推导出这个等式,以便对以前从未见过的人有意义吗?
二项分布只是具有成功概率 p 的伯努利变量之和。的正态分布来近似二项式分布。这意味着可以近似为均值和方差的正态分布。相应的标准差由。
那么问题就变成了什么时候n“足够大”并且总是有很多关于这个的讨论。正态近似的缺点之一是它始终是对称的,并且二项式分布不适用于。这反过来又会导致上述置信区间可能包含大于 1 或小于 0 的值,这显然没有意义。更严重的是,它不仅包括没有意义的值,而且还没有规定的覆盖范围。
当正态近似有意义时,还有其他很多讨论,这不仅取决于 n,还取决于 p。这篇 Wikipedia 文章http://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval是一个非常好的开始,其中还讨论了更好的替代方案。正态近似值仍然被广泛使用,因为它通常做得不错,而且需要很少的计算,这在计算机出现之前的时代很重要。
这是均值(比例)采样分布的正态近似的直接结果。请注意,如果是标准的正常 RV(平均值为 0,sd 为 1),那么我们将有:
然后,用中心和缩放的样本比例代替 Z,即让
这为您提供了他们提出的置信区间。