让我们假设一个极端情况,其中卷积层的内核只取值 0 或 1。要捕获输入中的所有可能模式频道数量,我们需要过滤器,其中是内核的形状。因此,要处理具有 3 个输入通道和 3x3 内核的标准 RGB 图像,我们需要我们的层输出渠道。我是否正确地得出结论,根据这一点,64 到 1024 个过滤器的标准层只能捕获一小部分(也许)有用的模式?
卷积层中过滤器数量背后的原因是什么?
人工智能
深度学习
卷积神经网络
计算机视觉
2021-10-29 11:31:13
2个回答
从数学的角度来看,您的计算是正确的。要捕获所有模式,您需要很多过滤器,但这就是训练的整体概念所在。CNN训练的主要目标是从数十亿个可能的模式中找到一些好的模式。
因此,您的问题的直接答案是:64 到 1024 个过滤器的标准层只能捕捉一小部分(也许)有用的模式,是的,但这是假设没有进行培训。如果您使用给定模型对给定数据进行训练,那么 64 到 1024 个过滤器已经可以提取很多有用的模式,也许比需要的还多。
让. 那么你应该只需要过滤器。不是保留所有信息。如果你只是使用单位矩阵的行作为你的过滤器,那么你的卷积只会制作一个精确的副本,所以它绝对不会丢弃信息。另一方面,将有一个最大池操作。为了简化问题,假设我们有 3 个通道和 1 x 1 内核。然后让我们假设它只是一个卷积,然后是全局最大池化。另外,让我们假设它都是二进制的。如果你有过滤器,那么最终输出将是无论您有多少输入点,都可以保持维度。很明显,信息在那里被丢弃了。但这并不是一件坏事。丢弃不相关的信息让我们更接近我们手头问题所需的特征。被最大池化丢弃的部分对应于在图像的特定部分中找不到的特征。
其它你可能感兴趣的问题