我一直在阅读Fast R-CNN 论文
我的理解是,一个前向传递的输入是整个输入图像加上一个 RoI 列表(由选择性搜索或另一种区域提议方法生成)。然后我明白了,在最后一个卷积层的特征图上,每个对应的 RoI 都得到了 RoI 池化。
但是我在两个概念上遇到了麻烦:
输入 RoI 是如何映射到深度特征图中对应的 RoI 的?特征图中的每个“像素”都来自输入上宽感知场上的一个非常非线性的函数,所以没有办法进行 1:1 映射,对吧?
忽略我对第 1 点的困惑,一旦我们在 FM 中有一堆 RoI 并且我们进行 RoI 池化,我们就有 N 个池化特征向量。我们现在是否通过一个 FC 网络逐个运行这些?还是我们有 N 个 FC 网络分支?(这对我来说没有意义)
编辑
我也刚读完Faster R-CNN 论文。同样,我也有兴趣了解从 RPN 提出的区域如何映射到 Fast R-CNN 层中 RoI 池的输入。因为实际上那些提议的区域存在于输入图像的空间中,而不是深度特征图的空间中。