机器算法验证 - 加权 Pearson 相关系数的 p 值 - 吾爱随笔录

机器算法验证相关性统计学意义 p 值皮尔逊-r

2022-04-11 04:42:13

我正在使用此处描述的方法计算加权相关系数。

我想计算得到的 r 系数的 p 值。鉴于我的 r 是使用权重计算的，我该如何正确执行此操作？自然，r 的 p 值的标准公式（例如，此处）没有考虑权重，我不确定在计算 p 值时如何正确考虑权重。

2个回答

这 $P$ 相关性报告的值取决于样本相关性、样本量和一组并不总是检查的假设（根据我的经验，独立性是所有检查中最少检查的）。但粗制滥造是有区别的 $t$ -基于 $P$ -基于零相关性的零假设和更一般的值 $P$ - 基于 Fisher 的值 $z$ 转型。

我不认为有一个独立于权重的答案。如果加权意味着您正在组合来自不同子样本的数据，那么权重会对应使用的样本量产生影响；同时，基于加权组合的相关性不一定具有与基于原始数据的相关性分布相同的分布。

同时，很难对此感到激动。如果相关性有一点，那就是它们衡量了关系的强度；如果您严重怀疑它们与零有显着差异，那么可以说您的样本量不够小，并且对该问题的精确性是次要的。

这很可能误读了您的问题，在这种情况下，您可能需要提供更多细节。

如果变得非常可靠 $P$ -加权相关性的值对您很重要，您可能需要通过模拟来处理它，包括加权过程的模拟（如果它也是可变的）。

我还没有坐下来做数学，但从我运行的几个模拟来看，似乎替换了样本数量 $n$ 在具有有效样本数的公式中 $n_\text{eff}$ 产生非常好的近似值。

$n_\text{eff} = \exp(H)$ ，在哪里 $H=-\sum_{i=1}^n w_i \ln w_i$ 是权重的熵（归一化为 $\sum_{i=1}^n w_i = 1$ ）。

例如：

$t = r\sqrt{\frac{n_\text{eff}-2}{1-r^2}}$ 大约遵循 $t$ -分布与 $n_\text{eff}-2$ 自由度，
$F(r) = \frac{1}{2}\ln\left(\frac{1+r}{1-r}\right)$ 遵循具有均值的近似正态分布 $F(\rho)$ 和标准。 $\frac{1}{\sqrt{n_\text{eff}-3}}$ .

但应该指出的是，即使是未加权的公式 $p$ -值是假设正常数据等的近似值。引导或置换测试可能更可靠，并且它们也适用于 Spearman 的加权相关。

其它你可能感兴趣的问题