为什么 Pearson 的 r 在 ρ 值较高时具有非正态抽样分布?

机器算法验证 假设检验 相关性
2022-03-28 04:40:12

我在http://davidmlane.com/hyperstat/A98696.html读到

[W] 当总体中相关性的绝对值较低(例如小于约 0.4)时,皮尔逊 r 的抽样分布近似正态。但是,在相关性较高的情况下,分布具有负偏态。

我知道费舍尔变换的重点是变换值的采样分布更正常。

我有两个(相关)问题。

  1. 为什么这只发生在r的高值时?

  2. 当我们进行显着性检验时,我们通常想知道如果 ρ=0,获得我们观察到的样本(或一些极端样本)的概率。如果我们这样做,那么转型的意义何在?上面的段落指出,如果相关性较弱,则抽样分布近似正态,并且没有比 0 更弱的相关性。

1个回答

这只是一个没有数学细节的简短答案,但是:

  1. 因为如果你的很高,你会得到一个非对称分布。例如,如果实际相关性为,您可能会偶然观察到的样本相关性。但是您永远不会观察到的样本相关性。通常,当实际值接近统计数据的范围时,许多正态近似值(例如二项式比例)效果不佳。r0.90.751.05
  2. 如果您只是针对进行测试,则无需担心由于高导致采样分布偏斜。当您想要测试(例如)或想要给出的置信区间时,它变得相关。总是想给出置信区间。r=0rr>0.7r