该网站上有几篇文章讨论了在解释线性回归的 p.value 的含义时需要正态性。但我认为关于如何处理非正常数据集的说法并不多。在这篇文章中,当分布是长尾时,他们给出了一些解决方案。
我正在处理我的残差(和我的因变量)具有多峰分布(如以下核密度图所示)并采用离散值(如其他图中所示)的情况。我的模型将“FP”作为因变量以及“设计复杂性”和“样本大小”。
在下图中,每个点和胡须代表 20 个点。我强烈期望会产生“设计复杂性”的影响,但不知道“样本大小”是否会产生影响。因为我不能拒绝“样本大小”和“设计复杂性”之间可能存在交互的可能性,所以我观察到了两者。

这是该模型的 R 代码。
summary(aov(FP~Obs.size*Design.Complexity, data=data.and.factors))
但我的残差绝对不是正态分布的:
注意:以下所有图表均以核密度和常规 xy 图的形式呈现
plot(density(residuals(aov(data.and.factors$FP~data.and.factors$Design.Complexity*data.and.factors$Obs.size))))

我的因变量也不是正态分布的,它的分布从一个“设计复杂性”值变为另一个(见下文)
FP的分布

设计复杂度的 FP 分布等于 1、2、3、4、5 和 6。

如何获得信任的 p.values ?