McNemar 测试的标签信息(曾经由我提供,后来可能修改):
分类数据的重复测量测试。假设具有相同 2 个类别(McNemar 检验)或 k 个类别(McNemar-Bowker 检验)的两个变量形成一个方形列联表,检验的问题是每个非对角单元格中的总体比例是否等于对称单元格中的总体比例。2x2McNemar 检验也可以看作是“边际同质性”检验。
首先请注意,McNemar's / McNemar-Bowker 通常并不意味着测试边际同质性。表中存在边际均匀性检验,与表中轴对称性的CxCMcNemar-Bowker 检验不同。CxC
但在2x2表格的特定情况下,对称性 McNemar 检验也成为边际同质性检验。(补充一点,上述CxC边际同质性检验实际上是在内部基于对所有可能的子表重复应用 McNemar 检验2x2)。(添加另一个信息:2x2McNemar 的检验等同于对二分数据执行的符号检验;两者都可以返回精确或渐近的 p 值。)
因此,您说 McNemar 的检验是边际同质性检验是正确的(在特定情况下)和不太正确的(通常)。首先是轴对称测试。
它用于事前研究或配对研究,以比较表中的对称频率;行和列类别必须是相同的实体。这H0是在人口中,所有非对角线比例都等于它们的对称细胞比例H1,而至少有一个比例与其对称比例不同。
因此,非对角对称性测试完全忽略对角线条目并不奇怪。
但是对于具有相同行/列类别的列联表还有另一个重复测量分类测试CxC- 它确实考虑了对角线条目 - 着名的 Cohen 的kappa统计和测试。如果您想考虑对角线,请使用它。但它测试了不同的假设:H0= 对角线和非对角线比例甚至 vs H1= 非对角线比例占主导地位(对角线是峡谷)或对角线比例占主导地位(山脊)。Kappa 没有特别考虑对称单元。
@ted 对 McNemar 的直觉
但如果观察总数为 1MM,则差异看起来很像噪音
错位了。重复一遍:McNemar 中的对角线条目(在符号检验的术语中它们将被称为“关系”)在概念上超出了其检验假设。该假设是关于二项式问题“谁更经常在统计上获胜,A 还是 B?或者他们是关于按帐户抽奖?”。因此,对角线、领带被视为“没有答案或不知道”的响应,因此观察结果与实验无关。在测试时应将它们从样品中排除。尽管它们与测试无关,但H0/H1它们与测试的力量相关- 由于被排除在外,它们减少了测试所基于的有效样本量。您可以选择将 1/2 概率下的平局随机分配给“A 胜”或“B 胜”,而不是排除,即将平局视为“机会丢失数据”。这种方法不会偏向 NcNemar 的测试,但会削弱它的力量(见)。
但是,如果您需要将对角线包含在您的测试概念中(特别H0是,甚至有机会落入任何非对角线以及任何对角线单元格) - 那么 McNemar 的测试不应该让您感兴趣。例如,选择 kappa 或其他一些标准/测试。其中有许多专门用于比较分类性能。
比较两个分类器就像比较两个比率。将观察值包含在对角单元格中,例如a 是分类器工作的有效结果。从逻辑上讲,它应该被考虑在内。就像卡帕一样。但 McNemar 主要用于同一组观察的重复测量设置。那些发现自己在细胞中的人a只是对该因素的影响漠不关心;并且只要测试问题是存在时效果的方向是什么 - 细胞无法帮助回答它。