多类分类的适当统计显着性检验是什么?

数据挖掘 统计数据 多类分类 表现 f1score
2022-03-14 03:48:22

我有一个多类分类问题。我主要使用宏观平均 F1 度量来评估模型的性能,并想验证结果是否具有统计显着性。我有两个分类器在同一训练/测试集上的结果(成对观察)。

一些消息来源建议使用 McNemar 的测试进行二元分类任务。但是,对于多类分类问题,McNemar 检验是否有任何概括?如果是这样,进行这些测试的适当程序是什么?

1个回答

Mcnemars 的推广称为Cochran-Mantel-Haenszel 检验

R 中有一个实现,但我认为移植到 Python 应该不会太难。您可以在此处找到 R 版本