有没有设计用来自动检查各种统计测试假设的软件包?

机器算法验证 软件 假设
2022-04-01 06:05:49

我一直很难决定为数据集选择哪种统计测试。在网上阅读的越多,我就越感到困惑,因为在选择正确的测试时经常会有不同的意见。

在这个程度上,当有疑问时,我会应用一个参数检验和一个非参数检验,例如,单向方差分析和 Kruskal-Wallis,或双样本 t 检验和 Mann-Whiteney,希望两者测试给我相同的输出(通常是)。如果他们这样做,我就完了;如果没有,那我需要更加努力。p<0.05

是否有一些公认的网站为选择统计测试提供某种决策支持树?

是否有一些工具可以在应用之前尽可能多地检查给定数据集的统计测试假设?例如,对于单向方差分析,它可以自动检查正态性和方差同质性!

我认为这样的网站或工具会有很大帮助,但可能我要求太多了......

谢谢

3个回答

决定统计检验的假设是否合理所需的信息通常在数据本身之外。这意味着自动化程序将没有所需的信息。例如,通常假设数据是独立(或有条件地独立)收集的,但是查看数据如何区分简单随机样本(通常适用于许多统计测试)和雪球样本(不适合大多数定量测试)?由于一个简单的随机样本具有所有可能的样本的可能性相同,因此任何非独立样本也可能来自一个简单的随机样本。您需要知道数据是如何收集的,而不仅仅是数据本身。

另请注意,如果您进行正态性检验以决定使用哪个检验,那么您通常要么对有意义的问题(小样本量)得到无意义的答案,要么对无意义的问题(大样本量)得到有意义的答案。我预计许多其他假设测试(没有外部知识)也会有类似的问题。

如果您“测试”每一个可能影响测试结果的假设(没有外部知识表明哪个可能是最有意义的),那么您可能总是拒绝至少一个假设(如果您不纠正多重比较) 或者您将没有能力检测假设违规(当您对多重比较进行纠正时),结果将比从均匀分布生成 p 值好一点。需要了解导致数据的科学知识来评估哪些假设需要进一步研究(并且图表可能与正式测试一样有用)。

另请注意,上述非参数检验和上述基于正态的检验正在检验不同的零假设。如果结果不一致,则可能是两者都对不同问题给出了正确的(或至少近似地,具有良好的近似性,正确的)答案。

我认为您应该查看应用统计文本。我最喜欢的一本易于阅读是已故的鲁珀特·米勒 (Rupert Miller) 写的(我采用了他在斯坦福读研究生时教授的应用统计序列)。那时我们有笔记。他的书没有完成,但它是一个奇迹。他是一位伟大的老师和作家。这本书由 Wiley 出版,标题为Beyond ANOVA, Basics of Applied Statistics(亚马逊上)。它最初由 Wiley 出版,但目前显然由 Chapman & Hall/CRC 重印。这贯穿了参数方差分析所需的所有假设以及检查它们的方法。

这是旧的,但您的图书馆可能有它:

“选择分析社会科学数据的统计技术指南”,1981 年第 2 版;密歇根州安德鲁斯大学社会研究所,FM;克莱姆,L;田纳西州戴维森;奥马利,下午;罗杰斯,WL

劳伦斯