我有两组数据,我想测试哪个“更正常”(特别是适合每小时和每日数据的两个不同模型的残差 - 每日数据是聚合的每小时数据)。
当绘制为 QQ 图时,一个看起来“更正常”。我还进行了 Anderson-Darling 检验,在这两种情况下 p 值均 < 0.05,但在一种情况下 > 0.01,“更正常”数据的检验统计量本身较低。
我的问题是,基于两个测试之间较低的测试统计量,说其中一个数据“更正常”是否有效?特别是如果两者都没有达到某种程度的意义?
我有两组数据,我想测试哪个“更正常”(特别是适合每小时和每日数据的两个不同模型的残差 - 每日数据是聚合的每小时数据)。
当绘制为 QQ 图时,一个看起来“更正常”。我还进行了 Anderson-Darling 检验,在这两种情况下 p 值均 < 0.05,但在一种情况下 > 0.01,“更正常”数据的检验统计量本身较低。
我的问题是,基于两个测试之间较低的测试统计量,说其中一个数据“更正常”是否有效?特别是如果两者都没有达到某种程度的意义?
如果您想量化偏离正态性,那么一个很好的衡量标准是Kolmogorov-Smirnov 检验统计量 的样本。
下面的样本x使用 R 中的一个优秀算法,已知该算法从一个基本完美的正态总体中采样,
样本y基于三个标准均匀随机变量的总和。根据中心极限定理,我们可以猜测这样的总和可能接近正态,但实际的稍微不正态的总体是已知的。它还具有
.
set.seed(1021)
x = rnorm(5000, 3/2, 1/2)
mean(x); sd(x)
[1] 1.492946
[1] 0.5032069
summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.4434 1.1552 1.4951 1.4929 1.8283 3.4453
ks.test(x, "pnorm", 3/2, 1/2)
One-sample Kolmogorov-Smirnov test
data: x
D = 0.013255, p-value = 0.3434
alternative hypothesis: two-sided
y = replicate(5000, sum(runif(3)))
mean(y); sd(y)
[1] 1.503185
[1] 0.500952
summary(y)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.09379 1.15050 1.49884 1.50319 1.86148 2.90054
Y 总体的一个关键非正态特征是它在区间
ks.test(y, "pnorm", 3/2, 1/2)
One-sample Kolmogorov-Smirnov test
data: y
D = 0.018057, p-value = 0.07674
alternative hypothesis: two-sided
直方图。下面显示了两个样本的直方图,以及
ECDF 图。下面显示了两个样本的经验 CDF,以及
在这些累积图的规模上,很难看出 ECDF 和 CDF 之间的差异。但是,有一些细微的差异。
KS 检验统计量。Kolmogorov-Smirnov 检验统计量测量每种情况下 ECDF 和 CDF 之间的最大垂直绝对差。对于 s,该绝对差是 ,而对于 s,绝对差是稍大的
仔细一看。为了更清楚地显示 ECDF 和 CDF 之间的最大绝对差异,我们显示了来自 Y
y1 = replicate(5, sum(runif(3)))
ks.test(y1, "pnorm", 1.5, .5)$stat # '$'-notation shows test stat
D
0.3368526
plot(ecdf(y1), main="n=5: 'Nearly' Normal Population")
curve(pnorm(x,1.5,.5), add=T, col="red")
ECDF 和 CDF 之间的最大垂直距离出现在观测值
对于相同大小的两个样本,可以说但是,还有其他方法可以衡量 ECDF 和 CDF 之间的差异。
让我们首先假设您收集了从正态分布中提取的跨时间数据。如果是,那么即使一个频率水平看起来比另一个更好,频率也是无关紧要的。这是由于 Donsker 定理。
至于
我的问题是,基于两个测试之间较低的测试统计量,说其中一个数据“更正常”是否有效?
答案是否定的,至少在你构建它的时候。您的零假设是在两种情况下都是从正态分布中得出的。它被拒绝。至少以这种方式,您不能就样本中的差异做出陈述。您没有执行差异测试,例如。假设检验是关于总体参数而不是样本。
根据 Anderson-Darling 检验的假设和收集样本时可能存在的任何仪器问题,您有两种选择来考虑这一点。您可以使用 p 值作为反对 null 的证据并拒绝它是正常的;或者您可以假设样本是极端情况,因为 p 值仅表明如果 null 为真,则样本不太可能。如果后者可能成立,那么您应该进行另一次调查。
就其本身而言,p 值不能说明您的样本是否不好但您的假设是否良好,以及样本是否良好但您的假设是否不好的情况。
更好的问题是,关于您的残差不正常,“那又怎样?” 为什么他们会是别的东西?您的模型中可能会发生什么?