机器算法验证 - 为什么 Mann-Whitney U 检验统计量有两种形式？ - 吾爱随笔录

机器算法验证非参数 wilcoxon-mann-whitney 检验

2022-04-08 18:22:48

我遇到了两种计算双样本 Mann-Whitney U 检验统计量的表格，它们是：

U_{1} = R_{1} - \frac{n_{1} (n_{1} + 1)}{2}

$U_1 = R_1 - \frac{n_1(n_1 + 1)}{2}$

和

U_{1} = n_{1} n_{2} + \frac{n_{1} (n_{1} + 1)}{2} - R_{1}

$U_1 = n_1n_2 + \frac{n_1(n_1+1)}{2} - R_1$

其中是第 1 组的样本大小，是第 2 组的样本大小，是第 1 组的秩和。 $n_1$ $n_2$ $R_1$

为什么 U 检验统计量有两种形式？这是第一个方程实际上是 Wilcoxon统计量的情况吗，我理解它在功能上等同于（尽管在数值上不等价）？我是一名受过培训的生物化学家，因此对于我的问题中的任何不正确的陈述或假设，我深表歉意。 $W$ $U$

1个回答

实际上有两种以上的 Mann-Whitney-Wilcoxon 检验形式。

鉴于没有关系（我将自始至终假设），您在那里拥有的两种形式对应于

(i) 样本 1 中的观测值超过样本 2 观测值的次数，以及

(ii) 样本 2 中的观测值超过样本 1 的观测值的次数。

我们最好区分这两个定义。我们称它们为和。 $U_{1>2}$ $U_{2>1}$

注意，样本 1 和样本 2 之间的成对比较次数。 $U_{1>2}+U_{2>1} = n_1 n_2$

$R_1$ 是样本 1 中的秩和，是与 Wilcoxon 最相关的两种常见形式之一（在原始论文中提到）——有时称为 W，有时称为 U 或 T。

与 Wilcoxon 相关的另一种形式（在统计的第一个表中，不久后发布）是，样本 1 中的秩和减去可能的最小值为那笔钱。这种形式等同于我所说的。 $W=R_1- \frac{n_1(n_1 + 1)}{2}$ $U_{1>2}$

（更多的形式仍然是可能的。）

这些形式都是线性相关的。结果，它们产生了等效的测试（它们应该拒绝或无法拒绝相同条件下相同样本的空值）。

其它你可能感兴趣的问题