总体比例的置信区间的推导

机器算法验证 置信区间 正态分布 二项分布 数理统计
2022-03-27 07:06:53

我很难理解这个公式的来源。这对我来说似乎没有任何意义。有人可以对此有所了解:

的自然估计量,成功率相同。由于只是乘以一个常数,所以具有近似正态分布。标准化,这意味着:pp^=Xnp^Xp^E(p^)=pσp^=p(1p)n

P(zα/2<p^pp(1p)/n<zα/2)1α

有人可以推导出这个等式,以便对以前从未见过的人有意义吗?

2个回答

二项分布只是具有成功概率 p 的伯努利变量之和。的正态分布来近似二项式分布这意味着可以近似为均值和方差的正态分布。相应的标准差由B(n,p)np(1p)Xnpp(1p)np(1p)n

那么问题就变成了什么时候n“足够大”并且总是有很多关于这个的讨论。正态近似的缺点之一是它始终是对称的,并且二项式分布不适用于这反过来又会导致上述置信区间可能包含大于 1 或小于 0 的值,这显然没有意义。更严重的是,它不仅包括没有意义的值,而且还没有规定的覆盖范围。p!=0α

当正态近似有意义时,还有其他很多讨论,这不仅取决于 n,还取决于 p。这篇 Wikipedia 文章http://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval是一个非常好的开始,其中还讨论了更好的替代方案。正态近似值仍然被广泛使用,因为它通常做得不错,而且需要很少的计算,这在计算机出现之前的时代很重要。

这是均值(比例)采样分布的正态近似的直接结果。请注意,如果是标准的正常 RV(平均值为 0,sd 为 1),那么我们将有:Z

P(zα/2<Z<zα/2)1α.

然后,用中心和缩放的样本比例代替 Z,即让

Z=p^pp(1p)/n

这为您提供了他们提出的置信区间。