数据挖掘 - 在 Fast R-CNN 中，输入 RoI 如何在 RoI 池化之前映射到特征图中的各个 RoI？ - 吾爱随笔录

我一直在阅读Fast R-CNN 论文

我的理解是，一个前向传递的输入是整个输入图像加上一个 RoI 列表（由选择性搜索或另一种区域提议方法生成）。然后我明白了，在最后一个卷积层的特征图上，每个对应的 RoI 都得到了 RoI 池化。

但是我在两个概念上遇到了麻烦：

输入 RoI 是如何映射到深度特征图中对应的 RoI 的？特征图中的每个“像素”都来自输入上宽感知场上的一个非常非线性的函数，所以没有办法进行 1:1 映射，对吧？
忽略我对第 1 点的困惑，一旦我们在 FM 中有一堆 RoI 并且我们进行 RoI 池化，我们就有 N 个池化特征向量。我们现在是否通过一个 FC 网络逐个运行这些？还是我们有 N 个 FC 网络分支？（这对我来说没有意义）

编辑

我也刚读完Faster R-CNN 论文。同样，我也有兴趣了解从 RPN 提出的区域如何映射到 Fast R-CNN 层中 RoI 池的输入。因为实际上那些提议的区域存在于输入图像的空间中，而不是深度特征图的空间中。