ROC 图解释

机器算法验证 机器学习 分类
2022-04-06 05:00:02

我正在阅读 Fawcett 2004 年关于机器学习算法的 ROC 图的论文,可以在此处找到。

在第 7-8 页上,他展示了一个简单的 ROC 示例,并做出了一些我不理解的解释。下面是 ROC 图:

示例 ROC 图

这是他写的:

虽然测试集很小,但我们可以对分类器做一些初步的观察。它似乎在图表的更保守区域表现更好;(0.1,0.5) 处的 ROC 点产生其最高精度 (70%)。这相当于说分类器更擅长识别可能的正面而不是识别可能的负面。另请注意,分类器的最佳准确度出现在 ≥ .54 的阈值处,而不是我们可能期望的平衡分布的 ≥ .5 处。

我不明白他是如何得出他的解释的。

  1. the ROC point at (0.1,0.5) produces its highest accuracy (70%) 如何从该图中找到点 (0.1, 0.5) 的 70% 的最高精度,我们如何知道它是最高精度?

  2. This is equivalent to saying that the classifier is better at identifying likely positives than at identifying likely negatives.我不明白这种解释是如何确定的。

  3. Note also that the classifier’s best accuracy occurs at a threshold of ≥ .54这是怎么找到的?

  4. rather than at ≥ .5 as we might expect with a balanced distribution为什么我们会这样期待?

感谢您的任何帮助。

2个回答
  1. 准确度是正确结果(真阳性和真阴性)与测试总数的比率。如果将表中的前六个结果分类为“阳性”,其余为“阴性”,则得出 5 个真阳性和 9 个真阴性。精度为 14/20,高于曲线上的任何其他阈值点。

  2. 如果你使用这个分类规则,你分类为“正面”的数据中有 5/6 是正确的,但你分类为“负面”的数据中只有 9/14 是真正的负面数据。看到分类为“正面”的观察比看到“负面”分类更值得信赖。

  3. 对分数进行分类的决策规则.54因为“正”是选择此样本中前 6 个分数的阈值。

  4. 分数的平衡分布意味着真阴性得到高分的频率与真阳性得到低分一样频繁。在这个例子中,看起来我们假设比例是 0.50-0.50 正和负。

我的理解是这些不是数学评估。在曲线上获得最佳点的一种方法是找到在 10:45 时钟方向上最突出的点。但这是假设您与 tpr 一样关心 fpr,但情况并非总是如此。所有后续的陈述都是基于这个选择。