背景:我对 n=20 个零件的随机样本进行了一些测试。数据是可变的,我对人口统计一无所知。我想使用该样本中的数据来对总体做出陈述(特别是,我想以 95% 的信心说总体的第 99 个百分位数高于某个值)。
我已经阅读了检查此类分析的正态性的重要性,但也阅读了关于样本量相对较小时正态性检验的“低功效”的好帖子。这些帖子建议您“以图形方式”检查并根据需要转换数据,即使基本正态性检查表明没有令人信服的理由拒绝数据正常的零假设。
我使用一些基本的变换(平方根、逆等)对数据进行了变换,只是为了看看它会是什么样子。没有一个看起来完全不同,但它们确实显示了不同的“p”值。
我的问题: 即使未转换数据的(低功率)正态性检查不低于 0.05,我是否应该选择并使用具有最高“p”值的转换?
据我了解,转换后的数据集实际上“不正常”的概率最低。我附上了使用 Anderson-Darling 对三组(未转换、已转换 w/ 平方根、已转换 w/ 反转)运行的正态性检查的图像。
我唯一可用的统计工具是 Minitab。
***编辑:我认为正态性很重要的原因是,在我的行业中,使用“单面和双面统计容差限制因子 (k)”表格和表格仅对正态分布显示/有效。例如,参见“单面公差限制表”工业质量控制,第一卷。XIV,第 10 期。您可以通过计算 X +/- ks 来做到这一点,其中 X 是样本均值,s 是样本标准差,k 来自表格,是所需置信度、可靠性和样本量的函数。


