可访问人口是随机样本吗?

机器算法验证 采样 民意调查
2022-04-01 05:55:47

在致力于教学的学术机构中,当我们的实际样本包括未来将参加这门课程的所有学生时,我们经常使用我们目前正在上特定课程的学生(可访问人群)作为随机样本。有没有人研究过这有多合理?谢谢你。

2个回答

从表面上看,这是一个方便的样本。真正的抽样涉及随机化,我认为任何大学都不会允许您将学生随机分配到各个部分。毫无疑问,存在一个自我选择的问题,它会产生有偏见的样本,并且具有不同背景和特征的学生的患病率会出现偏差。只有更负责任的学生才会参加上午 8:00 的 MWF 课程,需要白天工作的学生可能更喜欢深夜班等。

这是一个重要的问题,由 Deming 和 Stephan (1941) 明确提出,他们首先使用“超人口”一词来描述具有该名称的方法:假设当前人口本身是来自更大的假设人口的样本。这个概念在 Cochran (1939) 中也是隐含的。请参阅 Stanek,2000b,在那里我第一次找到了对 Cochran 论文的参考。

如果每年的学生都是从这个超级人口中抽取的并且教学保持不变,那么将可用人口视为简单的随机样本并使用适当的基于调查设计的分析(Deming,1966,pp 247-261)。还有基于模型的超种群解决方案,例如从正态分布中得出观察值,但这些是更强的假设。我也会避免基于似然比的推断。

但是,如果每年学生之间存在随机或系统(例如时间趋势)差异,那么您将需要几年的数据来估计这些影响并将它们纳入您的分析。

如果教学内容(或讲师)每年也发生变化,那么您还有一个难以预测的额外差异来源。

底线:你可以分析这个类,就好像它代表了未来的类,但你必须通过陈述这个假设的问题来限定你的结论。

我已经在 SO 的其他地方回答了相关问题。见,例如

将推论统计应用于人口普查数据

证明使用有限总体校正的合理性

使用 FPC 调整任何功率分析?

有关超人口方法的其他一些参考资料,请参阅:Korn 和 Graubard,1999,第 227 页);格尔曼,2009;以及 Ed Stanek (2000 a,b) 的一些未发表的笔记。第一篇论文包含一组不完整的参考文献。

参考

科克伦,WG(1939)。“抽样枚举中方差分析的使用。”美国统计协会杂志,34:492-51

科克伦,WG(1977)。抽样技术(第 3 版)。纽约:威利。

戴明、W 爱德华兹和弗雷德里克 F 斯蒂芬。(1941)。关于将人口普查作为样本的解释。美国统计协会杂志 36,没有。213:45-49

戴明,我们(1966 年)。一些抽样理论。纽约:多佛出版社。

Andrew Gelman,2009。在分析整个人群而不是样本时,统计分析有何不同?http://andrewgelman.com/2009/07/03/how_does_statis/

Korn, EL 和 Graubard, BI (1999)。健康调查分析(概率和统计中的威利系列)。纽约:威利。

Ed Stanek (2000a) 关于超人口模型和推理的想法http://www.umass.edu/cluster/ed/unpublication/yr2000/c00ed62.PDF

Ed Stanek (2000b) 超种群和超种群模型 http://www.umass.edu/cluster/ed/unpublication/yr2000/c00ed64v1.PDF