机器算法验证 - 哪些数据“更正常”？ - 吾爱随笔录

哪些数据“更正常”？

机器算法验证数理统计统计学意义正态分布

2022-04-02 07:50:51

我有两组数据，我想测试哪个“更正常”（特别是适合每小时和每日数据的两个不同模型的残差 - 每日数据是聚合的每小时数据）。

当绘制为 QQ 图时，一个看起来“更正常”。我还进行了 Anderson-Darling 检验，在这两种情况下 p 值均 < 0.05，但在一种情况下 > 0.01，“更正常”数据的检验统计量本身较低。

我的问题是，基于两个测试之间较低的测试统计量，说其中一个数据“更正常”是否有效？特别是如果两者都没有达到某种程度的意义？

2个回答

如果您想量化偏离正态性，那么一个很好的衡量标准是Kolmogorov-Smirnov 检验统计量的样本。 $D.$ $n = 5000.$

下面的样本x使用 R 中的一个优秀算法，已知该算法从一个基本完美的正态总体中采样， $\mathsf{Norm}(\mu=1.5, \sigma=0.5).$
样本y基于三个标准均匀随机变量的总和。根据中心极限定理，我们可以猜测这样的总和可能接近正态，但实际的稍微不正态的总体是已知的。它还具有 $E(Y) = 1.5, SD(Y) = 0.5.$

 set.seed(1021)
 x = rnorm(5000, 3/2, 1/2)
 mean(x); sd(x)
 [1] 1.492946
 [1] 0.5032069
 summary(x)
    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 -0.4434  1.1552  1.4951  1.4929  1.8283  3.4453 

 ks.test(x, "pnorm", 3/2, 1/2)

         One-sample Kolmogorov-Smirnov test

 data:  x
 D = 0.013255, p-value = 0.3434
 alternative hypothesis: two-sided

 y = replicate(5000, sum(runif(3))) 
 mean(y); sd(y)
 [1] 1.503185
 [1] 0.500952
 summary(y)
    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.09379 1.15050 1.49884 1.50319 1.86148 2.90054

Y 总体的一个关键非正态特征是它在区间 $(0,3).$

ks.test(y, "pnorm", 3/2, 1/2)

        One-sample Kolmogorov-Smirnov test

data:  y
D = 0.018057, p-value = 0.07674
alternative hypothesis: two-sided

直方图。下面显示了两个样本的直方图，以及 $\mathsf{Norm}(1.5, 0.5).$

ECDF 图。下面显示了两个样本的经验 CDF，以及 $\mathsf{Norm}(1.5, 0.5).$

在这些累积图的规模上，很难看出 ECDF 和 CDF 之间的差异。但是，有一些细微的差异。

KS 检验统计量。Kolmogorov-Smirnov 检验统计量测量每种情况下 ECDF 和 CDF 之间的最大垂直绝对差。对于 s，该绝对差是，而对于 s，绝对差是稍大的 $X_i$ $D \approx 0.013$ $Y_i$ $D \approx 0.018.$

仔细一看。为了更清楚地显示 ECDF 和 CDF 之间的最大绝对差异，我们显示了来自 Y $n = 5$

y1 = replicate(5, sum(runif(3)))
ks.test(y1, "pnorm", 1.5, .5)$stat  # '$'-notation shows test stat
        D 
0.3368526 

plot(ecdf(y1), main="n=5: 'Nearly' Normal Population")
 curve(pnorm(x,1.5,.5), add=T, col="red")

ECDF 和 CDF 之间的最大垂直距离出现在观测值 $D = 0.3369$ $0.7356.$

对于相同大小的两个样本，可以说但是，还有其他方法可以衡量 ECDF 和 CDF 之间的差异。 $D$

让我们首先假设您收集了从正态分布中提取的跨时间数据。如果是，那么即使一个频率水平看起来比另一个更好，频率也是无关紧要的。这是由于 Donsker 定理。

至于

我的问题是，基于两个测试之间较低的测试统计量，说其中一个数据“更正常”是否有效？

答案是否定的，至少在你构建它的时候。您的零假设是在两种情况下都是从正态分布中得出的。它被拒绝。至少以这种方式，您不能就样本中的差异做出陈述。您没有执行差异测试，例如。假设检验是关于总体参数而不是样本。 $x$ $\mu_1-\mu_2$

根据 Anderson-Darling 检验的假设和收集样本时可能存在的任何仪器问题，您有两种选择来考虑这一点。您可以使用 p 值作为反对 null 的证据并拒绝它是正常的；或者您可以假设样本是极端情况，因为 p 值仅表明如果 null 为真，则样本不太可能。如果后者可能成立，那么您应该进行另一次调查。

就其本身而言，p 值不能说明您的样本是否不好但您的假设是否良好，以及样本是否良好但您的假设是否不好的情况。

更好的问题是，关于您的残差不正常，“那又怎样？” 为什么他们会是别的东西？您的模型中可能会发生什么？

其它你可能感兴趣的问题

上一篇测量两个或多个系数组合的标准误差下一篇角度的损失函数（和编码？）