我最近开始学习 YOLO 和对象检测,但我有点卡住了。我想知道是否有人可以向我解释当网格单元包含多个边界框的中心时会发生什么。网格单元是否仍然预测单个边界框?
在 YOLOv3 中,图像被分成几个大小的网格单元,和如果地面实况边界框的中心在网格单元中,则这些网格单元中的每一个都负责预测边界框。
我知道每个网格单元都预测盒子,在哪里是锚框的数量。每个预测的维度是, 在哪里是类的数量。为了, 1 为客观性分数。定义如下:
和是锚框的高度和宽度。是从网格单元的单个锚框做出的预测。我的困惑是当一个网格单元包含多个边界框的中心时,有多个值,但是YOLOv3训练过程的描述或者上面的方程似乎没有考虑到这一点。