在Krizhevsky、Alex、Ilya Sutskever 和 Geoffrey E. Hinton 的论文中。“ Imagenet 分类与深度卷积神经网络。 ” 神经信息处理系统的进展。2012.,第 4.1 节,作者描述了他们的数据增强过程。他们说他们将训练集的大小增加了 2048 倍。这是否意味着他们总共训练了 2048 × 120 万张图像?
此外,我并不完全遵循这一点:
在测试时,网络通过提取 5 个 224 × 224 的块(四个角块和中心块)以及它们的水平反射(因此总共 10 个块)来进行预测,并平均网络的 softmax 层所做的预测在十个补丁上。
他们提取了五个 224 × 224 的补丁(角、中心和水平)是什么意思?为什么它总共会产生十个补丁?
谢谢!