机器算法验证 - Fisher 整体 p 值与成对比较 - 吾爱随笔录

Fisher 整体 p 值与成对比较

机器算法验证多重比较列联表渔民精确测试分层

2022-03-25 06:42:21

我正在比较三个站点的响应率。以下是细胞计数

                        Frequency        |
                        Percent          |
                        Row Pct          |
                        Col Pct          |       0|       1|  Total
                        -----------------+--------+--------+
                        SITE1            |      7 |      2 |      9
                                         |   6.14 |   1.75 |   7.89
                                         |  77.78 |  22.22 |
                                         |   6.86 |  16.67 |
                        -----------------+--------+--------+
                        SITE2            |     95 |      9 |    104
                                         |  83.33 |   7.89 |  91.23
                                         |  91.35 |   8.65 |
                                         |  93.14 |  75.00 |
                        -----------------+--------+--------+
                        SITE3            |      0 |      1 |      1
                                         |   0.00 |   0.88 |   0.88
                                         |   0.00 | 100.00 |
                                         |   0.00 |   8.33 |
                        -----------------+--------+--------+
                        Total                 102       12      114

                             Fisher's Exact Test
                             ----------------------------------
                             Table Probability (P)       0.0179
                             Pr <= P                     0.0287

Fisher p 值显示显着性。然而，当进行成对比较（即site1vs. site2、site2vs .site3和site1vs. 和site3）时，单个 Fisher p 值并不显着。我的猜测是site1，site3与site2. 我想知道可能是什么原因，在这种情况下是否可以使用 Fisher 精确检验？

1个回答

你的怀疑是正确的，你是正确的，在这种情况下，一些低细胞计数会引起问题。然而， Fisher 的检验本身并没有错。我们只需要小心解释它的结果。

让我们回顾一下数据：

         0  1  Total 
Site 1   7  2 |    9
Site 2  95  9 |  104
Site 3   0  1 |    1
--------------+-----
Totals 102 12 |  114

Fisher 检验将所有数据配置的概率相加，这些配置 (a) 与行和列总计一致，并且 (b) 概率低于观察到的表（在没有列-行关联的零假设下）。

假设不包括站点 3 的一个结果。仅适用于前两行的 Fisher 检验给出的 p 值为 $0.2123$ - 远非前两个站点内任何关联的“重要”证据。现在考虑包含站点 3 中的单个值的效果。只有两种方法可以保持 $1$ 对于该行总计：要么 $1$ 出现在左列或右列中，并且 $0$ 出现在另一个条目中。因为列总数为 102 和 12，所以原假设表明 $1$ 应该出现在左栏中的频率为 $12/114$ 在右栏中，频率为 $102/114$ . 前一种情况实际上削弱了行列关联的证据，因此往往会提高 p 值，而后一种情况——实际上是观察到的——加强了关联的证据并降低了 p 值.

在这一点上，我将做出一个不正确但具有启发性的观察：如果前两行测试的 p 值实际上是一个概率（原假设为真），我们可以通过以下方式更新这个概率（在贝叶斯意义上）增加几率。站点 3 的数据几率为 12:102，因此

0.2123 / (1 - 0.2123) \times 12 / 102 = 0.0317.

$0.2123 / (1 - 0.2123) \times 12 / 102 = 0.0317.$

这对应于一个新的概率或“p值” $0.0307$ ——显着接近的两侧 p 值 $0.0287$ 为全表获得。

无论我们是否相信这种直觉，p 值的差异都在告诉我们，整个表格的明显显着结果几乎完全是由于在站点 3 获得的单一观察结果。

您真的想根据来自第三个不同站点的单一结果得出关于前两个站点的结论吗？很难想象这样的环境是明智的。相反，您可能会得出这样的结论：

几乎所有的数据都是在站点 1 和 2 获得的。大多数观察结果（114 个中的 102 个）是“零”（左列的属性）。它们没有显示与列关联的重要证据（Fisher 精确检验，p = 0.212）。在第三个站点获得的单个值是相对罕见的“值”之一（右列的属性）。包括此观察结果会在整个表中创建关联的外观（Fisher 精确检验，p = 0.029）。这可能被视为（非常）微弱的初步建议，即站点 3 可能与站点 1 和站点 2 的不同之处在于更倾向于展示“一”。

其它你可能感兴趣的问题

上一篇增加样本量对分类性能没有帮助下一篇平滑时间序列的比率