YOLO:有多少个边界框?

数据挖掘 物体检测 约洛
2022-02-16 14:04:48

在研究论文中,对于 S=7,B=2,模型为每个 7x7 网格单元预测 2 个边界框,因此每个图像预测 7x7x2=98 个图像。然而演示输出图像只有 3 个框。这是为什么?

我的理论是,由于线条的粗细与边界框的置信度得分成正比,因此在训练模型后,“糟糕”的边界框非常薄,甚至不会出现。

该论文还说“通常很清楚一个对象落入哪个网格单元,并且网络只为每个对象预测一个框”。

我很困惑。 输出图像

1个回答

从98箱到3箱,还涉及很多其他的东西。

  1. x*y*2 = 98,其中 2 是锚框,即每个网格将预测两个边界框。
  2. 非最大抑制:正如您所说,丢弃那些概率较小的框。您可以设置一些阈值。
  3. IOU(Intersection over Union):用于识别和丢弃重叠框的步骤。

完成所有这些活动后,您将获得 3 个最终盒子。

有关完整过程的更多信息:

  1. 丢弃置信度低的边界框。说小于 0.6。 在此处输入图像描述

  2. 现在画出置信度最高的网格。如下所述:在此处输入图像描述

  3. 这里获得了 0.9 的置信度分数。
  4. 现在识别所有 IoU 分数大于某个阈值(例如 0.5)的网格。这里以深蓝色突出显示并丢弃此类网格。

在此处输入图像描述

  1. 仍然留下了一些预测物体的网格,比如汽车,但是 IoU 很低,还没有被丢弃。再次从第 2 步开始重复这个过程,直到我们没有留下这样的网格。

注意:建议您阅读有关最后两个过程的更多信息,因为它涉及识别边界框的核心概念。