我有一个关于 conv 神经网络的问题。特别是来自http://deeplearning.net/tutorial/lenet.html的深度学习教程 。
在来自该 url 的图 1 中(同样在 C3 和 S4 之间,在 Lecun Yann 的基于梯度的学习论文的图 2 中),我无法理解来自第 m-1 层的所有特征图如何进入单个像素第 m 层,使用单个过滤器/内核。
为此,内核需要是 3D 的。但我无法理解 3D 内核卷积究竟是如何在 3 个不同的图像上工作的。是应用 3 个 2D 卷积后 3 个值的平均值吗?文档说“并通过多个输入通道进行池化”。pool 这里的意义是什么?
此外,在下面的代码中创建的内核(或权重)(在“我们使用两个具有 9x9 感受野的卷积滤波器......”下)具有所有不同的值。我会假设至少每个过滤器/内核的值将在 3 个平面上复制。以便从所有 3 个地图中提取相同的特征。如果这些值都不同,那么从概念上讲,卷积产生的“一个值”似乎没有“目的”,因为它正在获取所有混合消息。