哪些数据“更正常”?

机器算法验证 数理统计 统计学意义 正态分布
2022-04-02 07:50:51

我有两组数据,我想测试哪个“更正常”(特别是适合每小时和每日数据的两个不同模型的残差 - 每日数据是聚合的每小时数据)。

当绘制为 QQ 图时,一个看起来“更正常”。我还进行了 Anderson-Darling 检验,在这两种情况下 p 值均 < 0.05,但在一种情况下 > 0.01,“更正常”数据的检验统计量本身较低。

我的问题是,基于两个测试之间较低的测试统计量,说其中一个数据“更正常”是否有效?特别是如果两者都没有达到某种程度的意义?

2个回答

如果您想量化偏离正态性,那么一个很好的衡量标准是Kolmogorov-Smirnov 检验统计量 的样本。D.n=5000.

  • 下面的样本x使用 R 中的一个优秀算法,已知该算法从一个基本完美的正态总体中采样,Norm(μ=1.5,σ=0.5).

  • 样本y基于三个标准均匀随机变量的总和。根据中心极限定理,我们可以猜测这样的总和可能接近正态,但实际的稍微不正态的总体是已知的。它还具有 E(Y)=1.5,SD(Y)=0.5.

.

 set.seed(1021)
 x = rnorm(5000, 3/2, 1/2)
 mean(x); sd(x)
 [1] 1.492946
 [1] 0.5032069
 summary(x)
    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 -0.4434  1.1552  1.4951  1.4929  1.8283  3.4453 

 ks.test(x, "pnorm", 3/2, 1/2)

         One-sample Kolmogorov-Smirnov test

 data:  x
 D = 0.013255, p-value = 0.3434
 alternative hypothesis: two-sided

 y = replicate(5000, sum(runif(3))) 
 mean(y); sd(y)
 [1] 1.503185
 [1] 0.500952
 summary(y)
    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.09379 1.15050 1.49884 1.50319 1.86148 2.90054 

Y 总体的一个关键非正态特征是它在区间(0,3).

ks.test(y, "pnorm", 3/2, 1/2)

        One-sample Kolmogorov-Smirnov test

data:  y
D = 0.018057, p-value = 0.07674
alternative hypothesis: two-sided

直方图。下面显示了两个样本的直方图,以及Norm(1.5,0.5).

在此处输入图像描述

ECDF 图。下面显示了两个样本的经验 CDF,以及Norm(1.5,0.5).

在此处输入图像描述

在这些累积图的规模上,很难看出 ECDF 和 CDF 之间的差异。但是,有一些细微的差异。

KS 检验统计量。Kolmogorov-Smirnov 检验统计量测量每种情况下 ECDF 和 CDF 之间的最大垂直绝对差。对于 s,该绝对差是 ,而对于 s,绝对差是稍大的XiD0.013YiD0.018.

仔细一看。为了更清楚地显示 ECDF 和 CDF 之间的最大绝对差异,我们显示了来自 Yn=5

y1 = replicate(5, sum(runif(3)))
ks.test(y1, "pnorm", 1.5, .5)$stat  # '$'-notation shows test stat
        D 
0.3368526 

plot(ecdf(y1), main="n=5: 'Nearly' Normal Population")
 curve(pnorm(x,1.5,.5), add=T, col="red")

在此处输入图像描述

ECDF 和 CDF 之间的最大垂直距离出现在观测值D=0.33690.7356.

对于相同大小的两个样本,可以说但是,还有其他方法可以衡量 ECDF 和 CDF 之间的差异。D

让我们首先假设您收集了从正态分布中提取的跨时间数据。如果是,那么即使一个频率水平看起来比另一个更好,频率也是无关紧要的。这是由于 Donsker 定理。

至于

我的问题是,基于两个测试之间较低的测试统计量,说其中一个数据“更正常”是否有效?

答案是否定的,至少在你构建它的时候。您的零假设是在两种情况下都是从正态分布中得出的。它被拒绝。至少以这种方式,您不能就样本中的差异做出陈述。您没有执行差异测试,例如假设检验是关于总体参数而不是样本。xμ1μ2

根据 Anderson-Darling 检验的假设和收集样本时可能存在的任何仪器问题,您有两种选择来考虑这一点。您可以使用 p 值作为反对 null 的证据并拒绝它是正常的;或者您可以假设样本是极端情况,因为 p 值仅表明如果 null 为真,则样本不太可能。如果后者可能成立,那么您应该进行另一次调查。

就其本身而言,p 值不能说明您的样本是否不好但您的假设是否良好,以及样本是否良好但您的假设是否不好的情况。

更好的问题是,关于您的残差不正常,“那又怎样?” 为什么他们会是别的东西?您的模型中可能会发生什么?