机器学习背景下“自然图像”的定义

机器算法验证 机器学习 神经网络 图像处理
2022-04-10 07:07:43

在阅读深度学习文献时,我注意到标准网络结构的一些变体是专门为更好地建模“自然/真实图像”而创建的。例如,这篇论文说:

深度信念网络已经成功地对手写字符进行建模,但事实证明将它们应用于真实图像更加困难。... [我们的网络] 可以更好地模拟自然图像的协方差结构。

该论文似乎暗示只有真实或自然图像具有丰富的局部协方差结构。如果是这种情况,那么电子游戏的屏幕截图是否可以算作自然图像?数字绘画?并且无论如何有一种算法方法来测试这种“自然性”?

这听起来可能是开放式的,所以让我们明确地操作它:当给定一个 2D 像素阵列的训练集时,如何确定你应该使用标准网络结构还是用于自然/真实图像的结构?

1个回答

我怀疑这取决于上下文。

在您给出的示例中,它们将手写字符与照片进行对比。两者显然都具有协方差结构。但是,字母的数量是有限的(26、52 等),并且按照惯例,字母的协方差结构受到非常严格的限制。可能的照片数量远大于 26 张,并且对协方差矩阵的结构的约束要弱得多。在这种情况下,我认为作者建议信念网络在严格约束的问题上工作良好(将像素映射到 [a-zA-Z]),但是当关于图像的先验知识较少时,他们的方法会更好。

在其他情况下,“自然图像”基本上用作“具有丰富局部协方差结构的图像”的简写。这在视觉神经科学中尤其如此,其中的对比通常在简单的参数刺激(例如,正弦波或白噪声)之间,它们具有有些无聊的协方差结构,而电影/照片则没有。在这个定义下,我认为将绘画、视频游戏截图等称为“自然”是完全合理的。我注意到人们经常对冲并称它们为“自然主义”而不是“自然”,但我认为这一点是正确的。

人们将这些自然主义场景的特征比作任意的视觉刺激。Geisler (2008)对自然场景统计进行了很好的评论例如,自然(istic)场景的功率谱具有典型的 1/f 形状。您可以使用该标准来区分任意输入和“自然主义”输入。人们对视觉系统是否/如何进化以表示自然输入很感兴趣。如果您有兴趣,我很乐意为您提供更多指导。


盖斯勒,WS(2008 年)。视觉感知和自然场景的统计特性。安努。Rev. Psychol., 59, 167-192。