植被与侵蚀的相关性

机器算法验证 相关性 spss 分类数据 非参数
2022-03-17 13:51:45

我想找到两个变量之间的相关性:分类植被变量(类别 1-4)和侵蚀的连续变量(值在 0.2 和 9 之间)。我想我需要使用非参数测试来找到相关性,但是对统计数据有点陌生,所以有人可以建议使用最好的测试吗?我还想知道样本量如何影响这些测试,即样本量为 100 或 1000?

2个回答

我同意@John 的回答,但也建议简单地为每个植被类别绘制侵蚀箱线图。如果植被变量实际上具有序数解释,那么我们可以就植被与侵蚀之间的相关性得出一些探索性结论。例如,考虑以下虚构数据和相应的箱线图。

在此处输入图像描述

因此,正如您从箱线图中看到的那样,侵蚀和植被水平之间似乎存在正相关(或者如果您更喜欢该行话,则为关联)。(当然这个论证要求植被类别具有序数意义)

这是生成此代码的代码,R尽管我知道您没有要求它,并且显然您的标签之一是 for SPSS

#Pseudo Data
N = 10000
erosion = runif(N,0,10)
vegetation = rep(1,N)
vegetation[erosion > 2.5 & erosion <= 5] = 2
vegetation[erosion > 5 & erosion <= 7.5] = 3
vegetation[erosion > 7.5 & erosion <= 10] = 4

boxplot(erosion~vegetation,col=c("blue","red","green","orange"),
        xlab="Vegetation",ylab="Erosion")

您可以计算系数度量来代替相关性。与 Pearson 相关系数有类似的解释,但实际上应该只用于 2x2 设计。在您的情况下,您可能应该使用标准化的 Cramer's V,但并不完全具有相关性风格的解释。没有非参数可比较的线性相关性,因为您的变量之一是纯粹的分类变量。那些标记您的类别的数字 1-4 可以任意重新分配给不同的类别,它不会影响真正的关系,但会影响 Spearman 相关系数之类的东西。χ2ΦΦ

不幸的是,上述策略并不能真正公平地对待您的连续变量。获得相关(ish)值的另一种方法是将连续变量作为响应并以分类作为预测变量执行 ANOVA,然后计算(eta-squared)效应大小度量。该效应大小的解释类似于η2R2

您关于样本量的第二个查询对所有测试和估计都有一个固定的答案。样本越大,检验越有可能显着。增加样本量会提高效果估计的准确性(,或您正在进行的任何参数估计)。Φη2