我怀疑这取决于上下文。
在您给出的示例中,它们将手写字符与照片进行对比。两者显然都具有协方差结构。但是,字母的数量是有限的(26、52 等),并且按照惯例,字母的协方差结构受到非常严格的限制。可能的照片数量远大于 26 张,并且对协方差矩阵的结构的约束要弱得多。在这种情况下,我认为作者建议信念网络在严格约束的问题上工作良好(将像素映射到 [a-zA-Z]),但是当关于图像的先验知识较少时,他们的方法会更好。
在其他情况下,“自然图像”基本上用作“具有丰富局部协方差结构的图像”的简写。这在视觉神经科学中尤其如此,其中的对比通常在简单的参数刺激(例如,正弦波或白噪声)之间,它们具有有些无聊的协方差结构,而电影/照片则没有。在这个定义下,我认为将绘画、视频游戏截图等称为“自然”是完全合理的。我注意到人们经常对冲并称它们为“自然主义”而不是“自然”,但我认为这一点是正确的。
人们将这些自然主义场景的特征比作任意的视觉刺激。Geisler (2008)对自然场景统计进行了很好的评论。例如,自然(istic)场景的功率谱具有典型的 1/f 形状。您可以使用该标准来区分任意输入和“自然主义”输入。人们对视觉系统是否/如何进化以表示自然输入很感兴趣。如果您有兴趣,我很乐意为您提供更多指导。
盖斯勒,WS(2008 年)。视觉感知和自然场景的统计特性。安努。Rev. Psychol., 59, 167-192。