当你写这个:
假设 X 是一个瑞利随机变量(形状参数为 b)。可以证明随机变量Y=X/mean(X)
你说的是除以人口平均值 μX,一个固定常数,给出Yi=Xi/μX.
然后在您的实验中,除以样本均值:
通过将每个数字除以总体样本均值来标准化这些数字。
这改变了分布。的分布Xi/X¯不是瑞利。
更具体地说,我认为与实际具有标准 Rayleigh 分布的统计数据相比,您应该倾向于看到与 Rayleigh cdf 的大偏差更少,因为样本估计将产生“更接近数据”的拟合 cdf比真实的;因此,除以该估计值会产生一个标准化的 ecdf,它比除以总体平均值时更接近假设分布。
结果,我希望您应该获得过多的大 p 值和不足的小 p 值。
你的结果和我预期的差不多。
这种效果是众所周知的。我们在其他发行版中看到它。这就是为什么Lilliefors 检验* 的临界值小于 Kolmogorov-Smirnov(没有估计参数)。总体思路是使用与 Kolmogorov Smirnov 相同的“cdf 最大差异”检验统计量,但“理论”cdf 基于一个或多个估计参数(或等效地,使用估计参数将样本缩放到某种标准形式)。
*(不幸的是,链接中的 Wikipedia 文章文本目前表明 Lilliefors 检验仅适用于正态性,但他也涵盖了指数情况,如您在文章底部的“来源”部分中所见)
实际上,您可以将 Lilliefors 测试 [1] 的指数版本用于 Rayleigh 分布——因为 Rayleigh 随机变量的平方是指数的,您可以将原始数据平方并测试指数。(在这种情况下,您将平方数据除以其平均值,而不是平方您的缩放值。)
请注意,Kolmogorov-Smirnov 的渐近 5% 临界值为1.36/n−−√而对于 Lilliefors 在测试指数时是1.077/n−−√(即,正如我上面建议的那样,将指数样本除以其平均值会产生一个缩放的 ecdf,它往往比除以总体平均值时更接近假设)。
[您可以在原假设下使用模拟获得 Lilliefors 检验的临界值(和/或 p 值)。这就是 Lilliefors 实际所做的,但他的模拟规模非常小(那是 1960 年代,因此计算设施有限)——所以你可能想要重做模拟,特别是如果你想要 p 值。如果临界值足够,则有更新/更准确的表格可用]
在编辑中添加:经过一番谷歌搜索后,Edgeman & Scott (1987) [2] 中讨论了使用 Lilliefors 测试(用于指数)来测试 Rayleigh(转换后)的想法。
[1] Lilliefors, H. (1969),
“关于均值未知的指数分布的 Kolmogorov-Smirnov 检验”,
美国统计协会杂志,卷。64 . 第 387-389 页。
[2] RL Edgeman, RC Scott (1987),
“Lilliefors 对转换变量的检验”,
巴西概率与统计杂志,1, 101–112。