我们处于通过一些样本量估计一些人口数量的情况。在这种情况下,我们使用样本比例来估计总体比例,但原理要普遍得多。
如果您认为样本中的所有观察值在它们具有感兴趣的特征时 (在示例中为“首选橙子而不是苹果”),而当它们没有时的比例是相同的作为和值集的平均值——因此您可以很容易地看到样本比例实际上是平均值。10101
随着我们采用越来越大的样本(使用随机抽样),样本均值将趋于收敛于总体均值。(这是大数定律。)
然而,我们真正想知道的是我们可能有多远(例如可能由比例的置信区间的宽度或误差幅度表示,通常是这种宽度的一半) .
通常,您拥有的数据越多,对于某个数量(例如平均值)的不确定性就越小——因为样本平均值分布的标准偏差会随着您获取更大的样本而减小。[想象一下,取许多大小为 4 的不同样本的平均值。这些平均值的分布比原始观测值的分布变化小——标准偏差应该是原来的一半左右。现在,如果你取许多大小为 400 的不同样本的平均值,那么它的标准偏差应该再次小得多(大约120原始观测值的标准差的 th)。
样本均值分布的标准差是衡量样本均值与总体均值的典型距离的一种方法,该距离正在减小(随着1n√,如上例所示)。
结果,当样本很大时,我们对估计的准确性更有信心——如果我们再次重复我们的实验,其他这样的方法将接近当前的方法——它们越来越紧密地聚集在一起,并且因为(在这种情况下)我们的估计是无偏的,它们围绕我们试图估计的值聚集在一起。单个样本均值对于总体均值可能在哪里变得越来越有用。