我们有大量(物理)法律文件,并且想要估计每个文件的平均页数。我不知道期望的页面分布是什么,页面数的范围从 1 到一个很大的有限数。
我的想法是采集一些样本,计算这些文件中的页数,然后使用其中的平均值,但是我应该采集多少样本才能得到一个稍微准确的答案(不超过 20% 的折扣)?
我假设哪个分布有关系吗?我认为确实如此,但鉴于这些文件会以不均匀的速度增长直到它们被视为完成(某些字母包含的页面比其他字母多),最有可能描述这种情况的分布是什么?
我们有大量(物理)法律文件,并且想要估计每个文件的平均页数。我不知道期望的页面分布是什么,页面数的范围从 1 到一个很大的有限数。
我的想法是采集一些样本,计算这些文件中的页数,然后使用其中的平均值,但是我应该采集多少样本才能得到一个稍微准确的答案(不超过 20% 的折扣)?
我假设哪个分布有关系吗?我认为确实如此,但鉴于这些文件会以不均匀的速度增长直到它们被视为完成(某些字母包含的页面比其他字母多),最有可能描述这种情况的分布是什么?
这是有限总体抽样理论中处理的问题,如http://www.amazon.com/Finite-Population-Sampling-Inference-Prediction/dp/0471293415/ref=sr_1_1?s=books&ie=一书中所述UTF8&qid=1401276486&sr=1-1&keywords=finite+population+sampling+theory (以及许多其他)。
首先,您需要一种实用的采样方法!所以我们需要知道你的物理文件是如何存储的!您还应该考虑它们是按完全随机的顺序存储的,还是按其他确定的顺序存储的(按字母顺序排列?按时间顺序排列?什么???)。一个简单的随机抽样通常是不切实际的——如果你有一些你收藏中所有文件的列表,无论该列表是在计算机上还是在纸上(并且如果可以无序访问文件是可行的) )。如果该问题的答案是否定的,那么简单的随机抽样是不切实际的,您可以使用某种整群抽样或分层抽样。您可以在此处找到此术语和相关术语的解释: https ://en.wikipedia.org/wiki/Statistical_sampling
在不了解更多实际情况的情况下,仅提供一些简短提示:采样可能在 --- 架子 --- 抽屉或其他一些物理存储所在的单元的级别上。您应该考虑以下问题:如果按时间顺序存储,文档大小是否会随着时间的推移而出现某种趋势?还是一些周期性变化,即在一年中的某些部分,会产生特定类型的文档,其长度通常不同?
如果您告诉我们更多有关情况,我们可以提供更多帮助!
(然后,根据选择的抽样计划,将有一些特定的公式/方法用于构建估计值和置信区间)
平均值的区间将
(i) 是概率的——也就是说,通过随机抽样,你可以计算出一个平均值,即 99% 的时间(或其他百分比)不超过 20%——但不是 100%,除非你的样本是你的总体。
(ii) 取决于页数的标准偏差;由于这将是未知的,因此在计算所需样本量的估计值之前,您将需要一些相关信息(可能是上限,也可能是来自试点样本的估计值)。