为什么我们通常会直观地评估我们的假设?

机器算法验证 数据可视化 假设
2022-04-06 23:21:41

例如,在线性回归中,我们假设误差是正态分布的,具有恒定的方差并且期望值为 0。这些假设都是针对总体而言的。但是我们查看我们的实际数据点,看看是否满足这些假设,我们为什么要这样做?我们怎么知道结果适用于人群?如果我们只有 10 个数据点,为什么不说我们没有足够的数据来检验这些假设是否满足呢?

3个回答

我不同意数据是正态分布的观点,除非你在统计上拒绝了正态性。当我们的研究目标实际上是拒绝 H0 时,这是我们遵循的程序。这不是我们应该遵循的程序来测试我们的统计分析的假设。

我们通常做什么来测试正常性?有测试,但正如许多人所做的那样,我认为它们通常没有用。如果样本很小,则功效太低,如果样本很大,则测试甚至可以检测到与正态性的微小偏差,这些偏差几乎总是存在并且实际上并不重要。所以,通常要做的就是看QQ图。由于您使用“视觉”,我假设您熟悉它。

由于它根据理论分位数绘制估计的分位数,因此您可以预期估计的分位数是渐近的总体分位数,并且随着样本量的增加,QQ 图或多或少是稳定的。

如果您的样本量非常小(10 个合格),您要么承认无法假设正态性,要么您能够以其他方式证明它的合理性(类似数据的经验、理论原因……)。在一个理想的世界中,它至少是一个应该讨论的假设。

你当然可以说你没有足够的数据来检验这些假设。一般来说,在显着性检验中,我们认为除非有足够的相反证据,否则我们将继续相信默认位置。(有点奇怪,我同意。)这个“默认位置”被称为“零假设”。因此,例如在正态假设下,我们只是假设数据(实际上是残差)是正态分布的,直到数据迫使我们改变主意。

至于我们为什么要通过视觉而不是通过正式的假设检验来做这件事的问题,有几件事。首先,你的视觉系统非常强大:可能你的大部分大脑都专注于视觉处理(取决于你的计数方式),大约 70% 的感觉输入本质上是视觉的,等等。它比理性/推理部分(听起来可能违反直觉)。就个人而言,当我看到 p<.05 的统计输出时,我觉得我对我的数据有所了解,而我只是不了解。我认为第二个原因是,如果我们有足够的数据,许多统计测试最终会显示“显着性”,因此你只是在测试你的N(你已经知道了)。此外,如果您有足够的数据来确定它们不正常,但您的数据相当正常,那么中心极限定理无论如何都会涵盖您。因此,您真正想知道的是,对于中等大小(或较小)的数据集,您是否与正常值有中等大小(或更大)的偏差。鉴于您知道您的,一个qq-plot或类似的方法会更有帮助。更多类似的内容可以在这个经典的简历问题中找到。 N

我们为什么要看样本——因为它就是我们所拥有的。看看人口,看看它是否符合我们的假设会很棒,但我们不能。

如果总体满足我们的假设,我们通常会知道样本中的残差(或其他)会是什么样子 - 因此我们将它们视为从样本到总体的正常推断的一部分。

显然,查看您的 2 样本并得出结论“是的,这很可能来自正态分布”是愚蠢的。因此,该方法变成了仔细考虑功效、样本量的预期值、样本生成方式的了解等。