我对取更多样本的平均值和取更多观察样本的平均值之间的区别感到很困惑。您是否通过获取更多观察样本得到无偏估计?
采集更多样本和更多观察样本之间有什么区别吗?
机器算法验证
无偏估计器
意思是
2022-04-21 06:18:29
2个回答
假设您从 50 中抽取 10 个样本,而您的朋友从 500 中抽取一个样本。您可以提取的信息量与您的朋友没有区别。从理论上讲,你们都处于相同的条件下,因为你们拥有相同数量的数据。如果样本不是独立的,则可能会出现问题,但在独立随机抽样下,您和您的朋友正在处理相同的情况。
让我们看看方差。假设您平均 10 个样本均值。所以你有
该随机变量的方差为 其中是总体方差。
但这与你朋友使用
为了回答您关于偏差的问题,两个估计量对于总体均值都是无偏的。也就是说,两者的期望值都等于总体均值。
在某些领域(例如分析化学),术语样本是指待分析的一块(或一定量)材料(样本)。从统计的角度来看,您的采样具有嵌套/集群/分层结构,并且不满足@soakley 答案中的“独立随机采样”假设:同一样本的多次观察通常比多次观察更相似来自不同的标本(又名样品)。
也就是说,。
例如,对于矿石的化学分析,采样误差是 the analysis error
将被认为是典型的(正确完成采样)。
如果您的抽样正确完成(对于“样本”的物理和统计意义),那么抽取 50 或 500 个样本/样本都会产生对目标属性的无偏估计。如果没有正确完成,那么两者都可能有偏见。估计是否有偏差并不取决于样本数量/(统计)样本大小,而是取决于抽样程序。
但是如果 10 次观察后的不确定性(标准误差)大于之后的不确定性500 个样本/样本 1 观察每个。
如果仅用 500 次观察分析了 1 个样本,那么估计仍然是无偏的,但不幸的是,您不知道采样误差除了可以假设它是倍数(例如,比您在 500 次观察之间观察到的方差