这个 QQ 图对我的数据有什么指示?

机器算法验证 r 回归 QQ图
2022-04-18 15:24:05

在此处输入图像描述

数据集残差的 QQ 图

在此处输入图像描述

显示海狗壳长度与离低潮标记距离之间关系的图表,带有线性回归线、95% 置信区间线和 0 梯度线(红色)。

QQ图是否意味着“较小的狗螺”比“较大的狗螺”少,

2个回答

该图的形状与左偏态分布一致,可能是双峰分布(左侧有一个小众数)。

有可能存在两个具有相似分布的组(例如具有大约相同标准偏差的两个正态的混合,较小的亚群的平均值低于其他亚群)。这将表明缺少预测变量的可能性——这将对应于两组)。

但是,以下讨论依赖于回归假设,即条件均值和误差分布分别为零和常数,因此我们可以将残差 QQ 图解释为传达有关误差条件分布的信息。[请注意,如果残差实际上来自几个不同的分布,那么以这种方式解释残差的边际分布几乎没有意义。必须首先考虑其他诊断 - 包括与其他可能的预测因素相关的诊断]

请注意,在左右两个较不陡峭的部分之间有一个“陡峭部分”,但该陡峭部分的任一侧的坡度相似:

回归残差的 qq 图

这表明在中心和右侧以及左侧尾部看起来相当正常,但是在较少的点之间存在“差距”(在 -1.3 的范围内)。

所以分布可能是双峰的 - (第二个峰值是左侧的一个非常小的凸起)。您可以通过从正态分布生成数据并在接近 -1.3 的区间中忽略相当大比例的点来获得类似的外观。

像这样:

相似数据的 qqplot 密度显示双峰和低密度接近 -1.3

这是十组(最初)400 个值的模拟数据,每组来自标准法线,点接近 -1.3,然后有一些机会被省略;导致平均 349 个点具有某种双峰外观,并且其 qq 图通常具有类似于您自己的外观的东西 - 左侧和中心和右侧的点似乎位于大致平行的线附近,并且介于两者之间更陡峭的部分(表示较低的密度)

有很多方法可以正式或非正式地取样并检查它是否大致正常。pp或qq图通常用作探索工具。如果这是您的意图,我不会太担心误差线。该图应该大致看起来像一条直线,正态性被认为是一个合理的模型。从图中的圆圈看来,您的样本量相当大。 这将有助于告诉我们样本量是多少。关于您的数据,您至少应该相信它的行为就像来自人群的随机样本,最好是连续的。在图的最末端偏离直线可能表示偏度(不对称)或峰度(重尾)。

眼睛测试表明,下尾巴与正常情况有很大的不同。在身体和右尾中,行为似乎接近您对正态分布的期望。

您应该查看CV 帖子如何解释 qq 图Glen_b 有一个很好的答案,有几个情节及其解释。我也喜欢弗吉尼亚大学图书馆的文章,标题为如何解释 qq 图,您可以在 qq 图下通过 Google 搜索找到该文章。