我很难准确理解几个统计检验,例如 t 检验和 ANOVA 检验。这些测试要求我们使用的数据是正态分布的。
然而,在分享我在分析数据方面的经验的同时,我分析了来自众多在线来源(网络抓取、在线开放访问数据源等)的几个数据集,其中样本数量相当多(数百、数千)。有问题的数据的一个例子是在固定时间段(第 1 天下午 1 点,第 2 天下午 1 点等)给予某些活动的捐款量。
而当我测试数据的分布是否正常时,使用视觉辅助工具(直方图、QQ 图)和 Shapiro-Wilks 检验,他们都向我表明数据不正常。例如,Shapiro-Wilk 检验给出的 p 值非常小(小于 0.00000000000000022),当然,必须拒绝原假设,即数据不是正态分布的。
因为我读过类似这个链接的文章,它说
但是,即使单个观测值的分布不正常,如果您的样本量约为 30 或更大 ,则样本均值的分布也将呈正态分布
所以很自然,我很困惑,我的数据是否正态分布?在实际数据中,您多久遇到一次正态分布和非正态分布?
编辑 根据@hssay 在他的回答和评论中的回应,我的主要目标是我想做方差分析测试来确定我的数值和分类数据之间的关系。但是方差分析需要数据呈正态分布。所以现在我对如何进行它感到困惑,因为我有一个由数千行数据组成的“样本”,我只采集了一次。