我们多久看到一次正态分布的数据

数据挖掘 统计数据 分配
2022-03-11 22:03:10

我很难准确理解几个统计检验,例如 t 检验和 ANOVA 检验。这些测试要求我们使用的数据是正态分布的。

然而,在分享我在分析数据方面的经验的同时,我分析了来自众多在线来源(网络抓取、在线开放访问数据源等)的几个数据集,其中样本数量相当多(数百、数千)。有问题的数据的一个例子是在固定时间段(第 1 天下午 1 点,第 2 天下午 1 点等)给予某些活动的捐款量。

而当我测试数据的分布是否正常时,使用视觉辅助工具(直方图、QQ 图)和 Shapiro-Wilks 检验,他们都向我表明数据不正常。例如,Shapiro-Wilk 检验给出的 p 值非常小(小于 0.00000000000000022),当然,必须拒绝原假设,即数据不是正态分布的。

因为我读过类似这个链接的文章,它说

但是,即使单个观测值的分布不正常,如果您的样本量约为 30 或更大 ,则样本均值的分布也将呈正态分布

所以很自然,我很困惑,我的数据是否正态分布?在实际数据中,您多久遇到一次正态分布和非正态分布?

编辑 根据@hssay 在他的回答和评论中的回应,我的主要目标是我想做方差分析测试来确定我的数值和分类数据之间的关系。但是方差分析需要数据呈正态分布。所以现在我对如何进行它感到困惑,因为我有一个由数千行数据组成的“样本”,我只采集了一次。

1个回答

你的困惑很恰当。正常分布的数据不会经常出现。大多数现实世界的数据集都比平常更复杂。许多自然发生的现象(想想:某些人群中的人的身高)可能是正常的。但是大多数人类行为起重要作用的情况(如您提到的捐赠、收入、人们的偏好)将显示其他分布,如肥尾分布幂律分布

但是您强调的结果谈到了称为中心极限定理的统计结果,该定理表明您从平均推断的平均值将是正态分布的(与数据分布无关)下面我用一个例子来解释。

想象一下,您想谈论美国所有男性的身高。关于此类数据,您可能会问的第一个问题是集中趋势(均值)是什么。但是您可能没有关于美国每个男性的数据(获取这些数据的成本太高了)。所以你抽取一个样本,让我们假设每个州有 100 人。你也无法知道整个人口的高度分布或形状(你还没有收集到这些数据!)。您取您收集的样本并计算高度的平均值。您能否就整个人口的平均数与实际平均数的接近程度发表一些声明?采样后的计算平均值是一个随机变量因为对于每个不同的样本,您都会得到不同的答案。中心极限定理说,这个随机变量是正态分布的,其均值与总体均值相同,并且随着样本量的增加,您的估计值会变得非常接近。(中心极限定理适用于 iid 样本,即样本彼此独立,并且它们是从同一群体中挑选出来的。)

因此,总而言之,正态分布更常出现在统计测试中,因为您谈论的是采样数据的平均值分布,而不是数据的实际分布(可能是非正态的)。在某种程度上,中心极限定理是为什么大多数现实世界的统计应用从模拟到选举研究(心理学)都有效!

上述所有理论都回答了您答案的最初部分。但是对于专门运行 ANOVA 测试,您需要数据(接近)正态分布。查看数据的直方图(是的,我知道您只进行了一次抽样),您可以运行正态假设测试。