机器算法验证 - 机器学习背景下“自然图像”的定义 - 吾爱随笔录

机器学习背景下“自然图像”的定义

机器算法验证机器学习神经网络图像处理

2022-04-10 07:07:43

在阅读深度学习文献时，我注意到标准网络结构的一些变体是专门为更好地建模“自然/真实图像”而创建的。例如，这篇论文说：

深度信念网络已经成功地对手写字符进行建模，但事实证明将它们应用于真实图像更加困难。... [我们的网络] 可以更好地模拟自然图像的协方差结构。

该论文似乎暗示只有真实或自然图像具有丰富的局部协方差结构。如果是这种情况，那么电子游戏的屏幕截图是否可以算作自然图像？数字绘画？并且无论如何有一种算法方法来测试这种“自然性”？

这听起来可能是开放式的，所以让我们明确地操作它：当给定一个 2D 像素阵列的训练集时，如何确定你应该使用标准网络结构还是用于自然/真实图像的结构？

1个回答

我怀疑这取决于上下文。

在您给出的示例中，它们将手写字符与照片进行对比。两者显然都具有协方差结构。但是，字母的数量是有限的（26、52 等），并且按照惯例，字母的协方差结构受到非常严格的限制。可能的照片数量远大于 26 张，并且对协方差矩阵的结构的约束要弱得多。在这种情况下，我认为作者建议信念网络在严格约束的问题上工作良好（将像素映射到 [a-zA-Z]），但是当关于图像的先验知识较少时，他们的方法会更好。

在其他情况下，“自然图像”基本上用作“具有丰富局部协方差结构的图像”的简写。这在视觉神经科学中尤其如此，其中的对比通常在简单的参数刺激（例如，正弦波或白噪声）之间，它们具有有些无聊的协方差结构，而电影/照片则没有。在这个定义下，我认为将绘画、视频游戏截图等称为“自然”是完全合理的。我注意到人们经常对冲并称它们为“自然主义”而不是“自然”，但我认为这一点是正确的。

人们将这些自然主义场景的特征比作任意的视觉刺激。Geisler (2008)对自然场景统计进行了很好的评论。例如，自然（istic）场景的功率谱具有典型的 1/f 形状。您可以使用该标准来区分任意输入和“自然主义”输入。人们对视觉系统是否/如何进化以表示自然输入很感兴趣。如果您有兴趣，我很乐意为您提供更多指导。

盖斯勒，WS（2008 年）。视觉感知和自然场景的统计特性。安努。Rev. Psychol., 59, 167-192。

其它你可能感兴趣的问题

上一篇总体比例的置信区间的推导下一篇我应该使用什么模型进行这项研究？