计算超几何分布样本量的公式

机器算法验证 二项分布 样本量 超几何分布
2022-03-26 05:13:17

假设你有一个装有“N”颗弹珠的瓮。所有弹珠都是黑色或白色。您可以取一个大小为“n”的样本,而无需将它们替换到骨灰盒中。

有了这个示例,您希望能够做出以下两个陈述之一:

  1. Y%或更多的弹珠是白色的。
  2. 少于 Y% 的弹珠是白色的。

想法:

  • 这种方法使用超几何分布。
  • 在实践中,我的“N”会很大(1*10E5 到 1*10E6)。

问题:

  1. “n”的大小是多少?
  2. 计算所需样本量“n”的公式是什么?
  3. 如何估计 Y 的置信区间?

提前致谢。

2个回答

首先是背景:

“超几何分布适用于从有限总体中进行无替换抽样,其元素可以分为两个相互排斥的类别,例如通过/失败”(维基百科)

话虽如此,如果您的样本量非常大,即使没有替换,您的结果也可能接近二项分布。

小群体的样本量计算公式:

超几何分布

𝑛 = (𝑁𝑧^2 𝑝𝑞) / ((𝐸^2 (𝑁−1)+𝑧^2 𝑝𝑞))

在哪里:

  • n = 最小样本量
  • N = 人口规模
  • z = 置信水平 (zα/2)
  • p = 人口中事件的比例
  • q = 人口中非事件的比例
  • E = 样本比例的准确性

简单的二项分布(包括用于比较)

𝑛=(𝑍^2 𝑝𝑞)/𝐸^2

有用的链接和资源:

我目前的声誉使我无法发布超过 2 个链接,因此如果对您有帮助,请投票给这个答案:
公式和示例:里贾纳大学
在线计算器
Google 有这本书:“Six sigma and beyond”
有用“stattrek.com”上的示例
Wolfram Alpha
digitheadslabnotebook.blogspot.com

使用 Stan 在回答他自己的问题时提供的公式并插入值N,pq在问题中,即

人口:N=1,000,000

白色大理石的比例:p=0.001

黑色弹珠比例:q=1p

并假设精度

E=0.05

我们最终得到

n=1,000,000z1α/220.0009992499.998+z1α/220.000999

这里我们需要澄清一下:

z不是置信水平,但通常解释为(1α/2)标准正态分布的分位数。

置信水平为1α.

的典型值α分别为 0.01、0.05 和 0.1,并设置为控制假设检验中错误类型 1 的概率。维基百科

使用(1α/2)quantile 意味着我们要进行双边假设检验(否则我们将不得不使用(1α)分位数)。

回到例子:

让我们使用α=0.01,即 99% 的置信水平。现在我们得到样本量的结果n

n=1,000,0002.5820.0009992499.998+2.5820.000999=2.6513

结果讨论:

显然,从瓮中取出 2.6513 颗弹珠是不切实际的。因此,绘制 2 或 3 个弹珠是可供选择的选项。

两者都不会很令人满意...

想象一下,我们选择绘制 3 个弹珠。绘制 0、1、2 甚至 3 个白色大理石的概率是多少?

P(0)=0.997003

P(1)=0.002994009

P(2)0

P(3)0

关于假设检验H0:p0=0.001我们很好,因为拒绝真实假设的机会最多为 1%(根据设置的要求α=0.01)。

警告:

如果这不仅仅是关于假设检验,而且是关于估计总体中白色大理石的比例,您不会希望仅基于 3 个样本量来执行此操作,因为您的估计将被设计限制为 0% 的值, 33.3%、66.% 或 100%。指定精度为 0.05(即 5 个百分点)时,这与您的想法不太一样。