正态性测试 - 选择使数据“最正常”的转换?

机器算法验证 置信区间 正态假设 公差区间
2022-04-20 05:57:50

背景:我对 n=20 个零件的随机样本进行了一些测试。数据是可变的,我对人口统计一无所知。我想使用该样本中的数据来对总体做出陈述(特别是,我想以 95% 的信心说总体的第 99 个百分位数高于某个值)。

我已经阅读了检查此类分析的正态性的重要性,但也阅读了关于样本量相对较小时正态性检验的“低功效”的好帖子。这些帖子建议您“以图形方式”检查并根据需要转换数据,即使基本正态性检查表明没有令人信服的理由拒绝数据正常的零假设。

我使用一些基本的变换(平方根、逆等)对数据进行了变换,只是为了看看它会是什么样子。没有一个看起来完全不同,但它们确实显示了不同的“p”值。

我的问题: 即使未转换数据的(低功率)正态性检查不低于 0.05,我是否应该选择并使用具有最高“p”值的转换?

据我了解,转换后的数据集实际上“不正常”的概率最低。我附上了使用 Anderson-Darling 对三组(未转换、已转换 w/ 平方根、已转换 w/ 反转)运行的正态性检查的图像。

我唯一可用的统计工具是 Minitab。

***编辑:我认为正态性很重要的原因是,在我的行业中,使用“单面和双面统计容差限制因子 (k)”表格和表格仅对正态分布显示/有效。例如,参见“单面公差限制表”工业质量控制,第一卷。XIV,第 10 期。您可以通过计算 X +/- ks 来做到这一点,其中 X 是样本均值,s 是样本标准差,k 来自表格,是所需置信度、可靠性和样本量的函数。

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

2个回答

你可以说很多关于上百分位数的下限,即使是少量数据。

的真实(但未知)分布的第 99 个百分位那么或更多数据超过的机会由二项分布给出,等于nx0.99k x0.99

j=kn(nj)(0.01)j(10.01)nj.

例如,假设第 99 个百分位数小于但大于,这是数据集中的两个最大值(出现了 3 次)。那么 ; 快速计算表明,在中获得高于第 99 个百分位的三个或更多值的机会仅为:这真的很小,而且比您愿意以 95 运行的 100 - 95\% 风险置信度。换句话说,我们可以以的置信度断言第 99 个百分位数不低于65.56k=3n=204310095%95%100(143/1000000)=99.9957%5.5

在任何单调、递增的数据重新表达(例如平方根、对数或倒数)下,该计算不会改变。因此,数据分布的问题实际上是无关紧要的。

此计算称为置信度个百分位数的非参数公差下限。9995% 有一些参数计算依赖于管理数据的基础分布的知识(或假设)。然而,这些数据明显离散的性质(它们以的倍数出现)表明任何连续分布,例如正态分布,充其量只是粗略的近似。因此,使用对分布几乎没有假设或根本没有假设的方法是最安全的——并且几乎不会放弃任何精度。这就是“非参数”的意思,并表明它是稳健的1/2程序。例如,如果您丢失了多达四分之一的这些数据,那么即使在最坏的情况下(最高五个值丢失),您的结论也不会改变。(您对置信水平的陈述可能会有所不同,但它们总是会超过所需的。)95%

Any attempt to use the data to fit the distribution, when the choice is among 3 or more distributions, will result in at most tiny improvements over nonparametric methods, due to model uncertainty. 例如,如果您尝试不同的分布以与经验 CDF 一致,则最终估计的真实方差将等于经验 CDF 的方差。