精确召回曲线的汇总统计

机器算法验证 精确召回 信息检索
2022-04-09 11:32:09

据我了解,可以使用 ROC 曲线的 AUC 作为完整曲线的汇总统计量。

Q1。是否有任何类似的汇总统计数据可以在单个精确召回曲线上使用?

Q2。据我了解,分数()是在特定的操作精确召回制度下测量的。即需要在precision-recall曲线上固定一个点以获得精确率,并且它的相关召回率以获得公式中的结果:FF1Fβ

F1=2precisionrecallprecision+recall

Fβ=(1+β2)precisionrecall(β2precision)+recall

如果是这样,如何在曲线上选择这样的点?

3个回答

“平均精度”(有时缩写为 mAP 或 MAP)可能是您想要的。它非常常用于评估信息检索系统,并且计算起来相当简单。

首先,计算给定查询的平均精度。为此,在检索每个相关文档后对文档进行排序并计算精度。例如,假设有四个文档与此查询相关,我们的系统返回以下内容:

  1. 相关文件
  2. 无关文件
  3. 相关文件
  4. 相关文件
  5. 无关文件
  6. 无关文件。
  7. 相关文件

第一个相关文档在位置 1,精度为 1/1 = 1.0 下一个相关文档在位置 3;到目前为止看到的三个文件中有两个是相关的,所以我们这里的精度是 2/3。文档 4 也是相关的,这里的精度分数是 3/4。最后一个相关项目在位置 7,给我们 4/7 的精度。

求这些精度分数的平均值 (1/4*(1 + 2/3 + 3/4 + 4/7) = ~0.747) 以获得该查询的平均精度。平均平均精度只是评估集中所有查询的这些平均值的平均值。

至于选择精确召回权衡,这在很大程度上取决于您。分数赋予它们相同的权重;您可以将的\beta 解释为给予倍于召回的权重而不是精确度。我相信一些研究表明用户更喜欢精确召回,但我敢打赌,这在很大程度上取决于应用程序和用例。我当然不需要谷歌向我展示每个关于猫的网页,但我确实希望首页上的所有网站都是相关的。另一方面,如果您正在为法庭案件进行发现,返回所有可能相关的文件可能更重要。F1βFββ

实际上只有PR曲线测量的AUC;它用于生物学(尤其是在 DREAM 挑战系列环境中),因为它与 AUROC 一致(即,如果性能显着不同,排名通常相同)仍然通过提供比 AUROC 更低的值来提供更好的数值分辨率。

问题是 AUPR 需要仔细集成,因此很难找到正确的实现。

是一篇关于该主题的规范论文。

可以仅计算单个(精度、召回)数据点的 ROC 的 AUC。

这篇论文,不精确环境的稳健分类,描述了如何计算凸包 AUC(现在非常标准)。当您只有一个(精度,召回)点时,您将一条直线向下延伸到总是说不(0,0)点,然后将一条直线延伸到总是说是(1,1)点,你有凸包。

现在是简洁的结果:在这种情况下,只有一个坐标,计算简化为

AUC=(tf+1)/2

这强调了 AUC 和基尼系数之间的联系,这在别处有过评论。