卷积神经网络中的不清楚区域

机器算法验证 神经网络 深度学习 卷积神经网络
2022-04-01 18:20:44

我有一个关于 conv 神经网络的问题。特别是来自http://deeplearning.net/tutorial/lenet.html的深度学习教程

在来自该 url 的图 1 中(同样在 C3 和 S4 之间,在 Lecun Yann 的基于梯度的学习论文的图 2 中),我无法理解来自第 m-1 层的所有特征图如何进入单个像素第 m 层,使用单个过滤器/内核。

为此,内核需要是 3D 的。但我无法理解 3D 内核卷积究竟是如何在 3 个不同的图像上工作的。是应用 3 个 2D 卷积后 3 个值的平均值吗?文档说“并通过多个输入通道进行池化”。pool 这里的意义是什么?

此外,在下面的代码中创建的内核(或权重)(在“我们使用两个具有 9x9 感受野的卷积滤波器......”下)具有所有不同的值。我会假设至少每个过滤器/内核的值将在 3 个平面上复制。以便从所有 3 个地图中提取相同的特征。如果这些值都不同,那么从概念上讲,卷积产生的“一个值”似乎没有“目的”,因为它正在获取所有混合消息。

1个回答

我以前偶然发现过这个,而且通常解释得不好。最好将图像视为三维的,具有宽度、高度和通道数例如,输入图像可能具有三个通道,每种颜色一个通道。w×h×c

下一层可能有 50 个不同的过滤器,因此您可以再次将其视为具有 50 个通道的三维结构。

现在我们如何使用卷积滤波器从一个到另一个?好吧,正如您所直觉的那样,过滤器实际上是三维的,但它们仅在二维像素平面中进行卷积(一种思考方式是它们与通道数一样高,所以它们不能朝那个方向移动)。

池化是一种不同的操作,它是一种组非线性,旨在减少层的大小。最大池化的特性是它为您提供了一定程度的平移不变性。