为了确保一切都清楚,让我快速总结一下我们正在谈论的内容。精度和召回率是二元分类的评估指标,其中每个实例都有一个基本真实类(也称为黄金标准类,我将其称为“黄金”)和一个预测类,无论是正面还是负面(注意它是重要的是要清楚地定义哪一个是积极的)。因此,每个实例都有四种可能性:
- 黄金正面和预测正面 -> TP
- 金阳性和预测阴性 -> FN(也称为 II 型错误)
- 金阴性和预测阳性 -> FP(也称为 I 型错误)
- 金阴性和预测阴性 -> TN
Precision=TPTP+FP Recall=TPTP+FN
如果有帮助,我认为Wikipedia Precision and Recall 页面上的图很好地总结了这些概念。
关于您的问题:
- 如果避免误报对我来说最重要,我应该测量精度;如果避免假阴性对我来说最重要,我应该衡量召回率。我的理解正确吗?
正确的。
- 假设,我正在预测是否应该给患者接种疫苗,如果给健康人接种疫苗是灾难性的,因此应该只给受影响的人接种;我负担不起给健康人接种疫苗的费用。假设阳性代表应该给予疫苗,阴性代表不应该给予疫苗,我应该测量精度吗?或召回我的分类器?
在这里,人们希望避免将疫苗提供给不需要的人,即我们需要避免将阳性预测为黄金阴性实例。由于我们想不惜一切代价避免 FP 错误,我们必须有非常高的精度 -> 应该使用精度。
假设,我正在预测一封电子邮件是垃圾邮件(+ve)还是非垃圾邮件(-ve)。我不能承受被归类为非垃圾邮件的垃圾邮件,这意味着不能承受假阴性,我应该测量精度吗?或召回我的分类器?
我们要避免假阴性-> 应该使用召回。
注意:positive 类的选择很重要,这里 spam = positive。这是标准方式,但有时人们会将“积极”与积极结果混淆,即在心理上将积极与非垃圾邮件联系起来。
- 高精度(> 0.95)和低召回率(< 0.05)是什么意思?低精度(> 0.95)和高召回率(< 0.05)意味着什么?
假设您是一个分类器,负责根据一组图片是否包含狗(正面)或不包含(负面)来标记一组图片。您会看到有些图片明显包含一只狗,因此您将它们标记为正面,而有些则显然没有,因此您将它们标记为负面。现在让我们假设对于大多数图片您不确定:可能图片太暗、太模糊、有动物但被另一个物体遮盖等等。对于这些不确定的情况,您有两种可能的策略:
- 将它们标记为负数,换句话说,有利于精度。最好的情况是,它们中的大多数结果都是负面的,因此您将获得高精度和高召回率。但是如果大多数这些不确定的情况实际上是积极的,那么你就会有很多 FN 错误:你的召回率会非常低,但你的准确率仍然会非常高,因为你确定所有/大多数你的标记为正面的实际上是正面的。
- 将它们标记为积极的,换句话说,有利于召回。现在在最好的情况下,它们中的大多数结果都是积极的,因此高精度和高召回率。但是如果大多数不确定的情况实际上是负面的,那么你就会有很多 FP 错误:你的精确度会很低,但你的召回率仍然会很高,因为你确定所有/大部分是真正的正面被标记为阳性。
旁注:这与您的问题并不真正相关,但是对于高召回率很重要的情况,垃圾邮件的示例并不是很现实。通常,高召回率在目标是找到所有潜在阳性病例的任务中很重要:例如,警方调查发现每个人都容易在特定时间出现在特定地点。在这里,FP 错误无关紧要,因为侦探会事后进行检查,但 FN 错误可能会导致错过潜在嫌疑人。