是否可以结合两个混淆矩阵?

数据挖掘 混淆矩阵
2022-02-25 22:48:46

假设我有两种不同的算法来测试给定图像是否包含山羊。我将这两种算法应用于两个不同的数据集,得到了两个混淆矩阵。

现在我想以某种方式将这两种算法组合成第三种算法,如下所示:给定一张图像,我应用这两种算法,如果两种算法都猜到了,则声称该图像包含一只山羊。如果他们中的一个人猜测图像中没有山羊,我会返回 NO。

是否有可能以有意义的方式将原始的两个混淆矩阵组合成第三个?请注意,如果最初的两种算法在同一个数据集上运行,我可以将结果组合起来以获得第三个算法的混淆矩阵。(我猜是使用 Cohen 的 kappa 还是 Scott 的 pi?)但是,事实并非如此。

我能想到的一种方法如下:假设第一个数据集包含 10 个图像,第二个数据集包含 20 个图像。我可以从第二个数据集中随机选择 10 张图像,并假设第一个数据集实际上等于第二个数据集中的这 10 张随机图像。然后我可以合并结果。那会是一个有意义的测试吗?

1个回答

不,这是行不通的:即使两个混淆矩阵是从同一数据集中获得的,也无法仅从混淆矩阵中检查“两种算法在同一图像上预测为正”的条件。

示例:以 A 的 TP 为例:它可以是 B 的 TP 或 FN。A 的 FP 也是如此:它可以是 B 的 FP 或 TN。依此类推,基本上没有办法以这种方式推断元算法的TP或任何其他类别的数量。这是首先假设相同的数据集。

因此,实现这一目标的唯一方法是:

  1. 将这两种算法应用于同一数据集,
  2. 并获得具有图像 id 的实际预测(不仅是混淆矩阵),因此可以通过两种算法的正预测之间的逻辑与来获得元模型预测。