我有一个多类分类问题。我主要使用宏观平均 F1 度量来评估模型的性能,并想验证结果是否具有统计显着性。我有两个分类器在同一训练/测试集上的结果(成对观察)。
一些消息来源建议使用 McNemar 的测试进行二元分类任务。但是,对于多类分类问题,McNemar 检验是否有任何概括?如果是这样,进行这些测试的适当程序是什么?
我有一个多类分类问题。我主要使用宏观平均 F1 度量来评估模型的性能,并想验证结果是否具有统计显着性。我有两个分类器在同一训练/测试集上的结果(成对观察)。
一些消息来源建议使用 McNemar 的测试进行二元分类任务。但是,对于多类分类问题,McNemar 检验是否有任何概括?如果是这样,进行这些测试的适当程序是什么?
Mcnemars 的推广称为Cochran-Mantel-Haenszel 检验。
R 中有一个实现,但我认为移植到 Python 应该不会太难。您可以在此处找到 R 版本。