为什么这些文件大小不是正态分布的?

机器算法验证 正态分布 中心极限定理
2022-03-16 13:16:31

我保存了 10,000 张网络摄像头图像并计算了它们的长度。在整个记录期间,照明条件是恒定的。此处显示了概率分布,我尽最大努力将正态曲线拟合到它...

文件大小概率分布

这些文件是通过量子力学、电子理论、温度以及当然 JPEG 编码算法的多个复杂过程创建的。您可以看到分布存在偏差。即使没有曲线拟合,这也是显而易见的。

问:在 10,000 个样本之后,根据中心极限定理,为什么分布不是“更多”正态分布?

3个回答

CLT 适用于分布中样本的平均值。如果您引导数据的平均值,您会发现数据平均值的分布是正常的。图像的文件大小既不是在这些条件下生成的,也没有应用 CLT 的假设,因此不期望分布是正常的。

请看一下中心极限定理的定义:

在此处输入图像描述

该语句告诉我们,在给定足够样本量的情况下,您只能获得样本均值的正态分布。没有假设基础分布必须是正态的。

标准中心极限定理在某些条件下成立,其中之一是观测事件的独立性这些捕获的图像是否以图像参数之间没有相关性的方式进行?

想想如果你在拍摄一个周期性的现象(比如,每天同一时间太阳的位置),你就不会得到图像参数的正态分布,这有点让人放心。

还有一些其他定理表明,当事件并非完全不相关时,仍然会收敛到正态分布。这些定理依赖于复杂的假设,其中一些假设观察到的事件必须“不太相关”。