具有非正态分布残差的回归

机器算法验证 回归 正态分布 线性模型 正态假设 假设
2022-03-29 06:22:40

该网站上有几篇文章讨论了在解释线性回归的 p.value 的含义时需要正态性。但我认为关于如何处理非正常数据集的说法并不多。这篇文章中,当分布是长尾时,他们给出了一些解决方案。

我正在处理我的残差(和我的因变量)具有多峰分布(如以下核密度图所示)并采用离散值(如其他图中所示)的情况。我的模型将“FP”作为因变量以及“设计复杂性”和“样本大小”。

在下图中,每个点和胡须代表 20 个点。我强烈期望会产生“设计复杂性”的影响,但不知道“样本大小”是否会产生影响。因为我不能拒绝“样本大小”和“设计复杂性”之间可能存在交互的可能性,所以我观察到了两者。

在此处输入图像描述

这是该模型的 R 代码。

summary(aov(FP~Obs.size*Design.Complexity, data=data.and.factors))

但我的残差绝对不是正态分布的:

注意:以下所有图表均以核密度和常规 xy 图的形式呈现

plot(density(residuals(aov(data.and.factors$FP~data.and.factors$Design.Complexity*data.and.factors$Obs.size))))

在此处输入图像描述 在此处输入图像描述

我的因变量也不是正态分布的,它的分布从一个“设计复杂性”值变为另一个(见下文)

FP的分布

在此处输入图像描述 在此处输入图像描述

设计复杂度的 FP 分布等于 1、2、3、4、5 和 6。 在此处输入图像描述 在此处输入图像描述

如何获得信任的 p.values ?

1个回答

我不会称之为多项式。残差是在连续尺度上测量的,但它们具有多峰分布,而不是多项式分布。

顺便说一句,核密度图使模态更难判断。某种带状图或带状图会很有帮助。

在一些科学背景下对您的模型进行评论会更容易,但作为控制的样本量不如设计复杂性那样令人信服。如果样本量完全是个问题,你会期待互动吗?你会期待线性关系吗?

设计复杂性有很强的影响。如果您从设计复杂性是唯一因素的更简单的模型开始,那么关键是每个复杂性级别的残差分布。

我的底线是残差的正态性并没有你想象的那么重要。您似乎具有残差的近似对称性,并且您的 P 值可能会有点不可信,但无论如何它们通常都是可疑的。