我正在阅读一篇论文,其中作者评估了旨在诊断同一疾病的两种不同诊断测试之间的关联,他们使用 Fisher 精确测试进行了分析。
虽然我发现这在统计上是合适的,但我开始怀疑他们是否可以使用 Chohen 的 Kappa。
经过一番阅读,我找不到关于何时使用这两种分析的建议。两者都是表格分析,我知道虽然 Cohen's 用于衡量“协议”,但我认为它主要衡量的是与 Fisher's 相同的东西?
我在这方面是正确的吗?
任何人都可以给我任何指导或见解,什么时候一种测试比另一种更合适?
我正在阅读一篇论文,其中作者评估了旨在诊断同一疾病的两种不同诊断测试之间的关联,他们使用 Fisher 精确测试进行了分析。
虽然我发现这在统计上是合适的,但我开始怀疑他们是否可以使用 Chohen 的 Kappa。
经过一番阅读,我找不到关于何时使用这两种分析的建议。两者都是表格分析,我知道虽然 Cohen's 用于衡量“协议”,但我认为它主要衡量的是与 Fisher's 相同的东西?
我在这方面是正确的吗?
任何人都可以给我任何指导或见解,什么时候一种测试比另一种更合适?
我知道我会在两年后回答这个问题,但我希望一些未来的读者可能会发现这个答案有帮助。
Cohen 的检验数据是否更有可能落在分类表的对角线中,而 Fisher 的精确检验评估两个分类变量之间的关联。
在某些情况下,Cohen 的可能会收敛到 Fisher 精确检验。一个简单的案例将回答您的问题,即 Fisher 检验不适合评估者协议。
想象一个矩阵
.
很明显,非对角线上的两个变量之间存在关联,但评估者的同意只是偶然。换句话说,评估者系统地不同意。从矩阵中,我们应该预期 Fisher 检验是显着的,而 Cohen 检验是显着的。不该是。进行分析证实了预期,和,和.
我们还可以举另一个例子,其中两个结果与以下矩阵不同:
,
这使和,和. 因此,评估者可能会同意,但分类变量之间没有关系。
不过,我没有更正式的数学解释来说明它们应该如何收敛。
最后,鉴于科恩的实际知识状态在方法论文献中(例如参见this),您可能希望避免使用它作为一致性的衡量标准。系数有很多问题。我相信,对评估者的仔细培训和对每个类别的强烈一致(而不是整体一致)是要走的路。