有什么关系pp-生成 Pearson 的相关系数时的值?rr

机器算法验证 相关性
2022-04-17 04:55:59

我知道如何在 Excel 和 R 中生成 Pearson 的相关值。r

我理解该值的含义,因为它的范围为1<r<1

我也了解假设检验、置信区间和值。 = 该结果是由于随机机会或自然变化造成的概率,并且零假设为真)pp

但是,我无法在 Pearson 的相关性和值之间建立联系。在假设检验中,存在一些结果变化的机会因素(如掷硬币)。但是,在回归中,它基于实际数据点。那么 p 值在这种情况下意味着什么?数据点只是由于随机机会而聚集的可能性?这直接基于样本量吗?我问是因为我想知道一个公式如何知道离散数据点的可变性(例如汽车的售价和里程)。rp

那么,对于 r 值,p 值是基于样本大小的吗?我不明白的是 p 值似乎回答了一个二元问题:是否有影响?但是对于相关系数,没有提出是/否的问题。

如果我得到一个 r = .8 和 0.20 的 p 值,那是什么意思?这意味着 0.8 的相关性不正确的可能性为 20%?但是,什么是真的?r=.7 ? r=.6?

还是经验法则是,如果 p < .05 ,您只能使用 r 值,而不管数字如何?

如果我得到一个 r = .1 和 0.0001 的 p 值,那是什么意思?我们非常有信心存在非常弱的相关性?(多讽刺?)

如果我得到一个 r = .5 和 0.0001 的 p 值,这意味着什么?我们非常有信心存在适度的相关性?

如果我得到一个 r = .5 和 0.3 的 p 值,那是什么意思?这意味着有 30% 的机会存在 0.5 的中等相关性?

1个回答

[已修复/改进,基于 @Momo 和 @whuber 的反馈]

我相信在回归的背景下,皮尔逊相关系数之间的关系如下:值可以解释为在基于随机抽样的实验中确定的相关性(系数)相同或更大的概率如果零假设为真,则根据观察数据确定换句话说,我认为值与假设检验有关,其中假设本身是基于相关性的,如下所示:ppp

H0:correlation (of the underlying data-generation process) is zero;HA:the correlation is not zero.

然后,恕我直言,情况归结为以下传统的假设检验解释如果值很小(小于任意选择的显着性水平,通常等于 0.05),那么您可以拒绝原假设(“确定的相关性具有统计显着性”),并且,如果值大于,而不是您无法拒绝空值(“相关性在统计上不显着”)。p αpα

关于值和样本大小之间的关系,以下公式以数学形式表示所讨论的关系。pN

(aka ) 的Fisher 转换检验统计定义为rzT(r)=artanh(r)

对于二元正态分布标准误差取决于样本大小,如下所示:z N

SE(T(r))1N3

此外,由于检验统计量近似正常,

T(r)SE(T(r))N(0,1) and limNSE(T(r))=0

,分母中的标准误差越来越小N

PS您可能还会发现以下两个相关且有用的答案:thisthis