我想查看特定图像或数据集的分布,看看它们是否不同。
只是写类似的东西:
# mydataset.shape = (50k,32,32,3)
plt.hist(mydataset.reshape(-1))
做这个把戏?还是我应该做其他事情?例如在 cifar10 上这样做给了我这个情节:

但是,它看起来不正确,有 50K 训练图像,我不知道如何解释这一点,或者即使它是正确的做法!
如果我做 :
#dataset shape is (50k, 3072)
plt.hist(mydataset.reshape(-1,32*32*3))
#and testset which is (10K,3072)
plt.hist(mytestset.reshape(-1,32*32*3))
所以这对我来说非常令人费解,我不知道该怎么做!由于有 10 个垃圾箱,它是否给了我每个类的分布(cifar10 为 10 个类)?如果是这样,为什么当我尝试获取单个图像的分布时会得到相同的形状?
我的意思是当我尝试这样做时:
#image is of shape (1,3072)
plt.hist(mytestset[0])
有趣的是,整个测试集的直方图如下所示:
#dataset shape is (10k,32,32,3)
plt.hist(mytestset.reshape(-1,32*32*3))
为什么我也会为单个图像获得十个 bin?
那么每个轴是什么意思呢?
在图像/数据集分发方面我应该寻找什么?
它只是整个数据集的原始值吗?
还是每个类的原始值?甚至每个图像?


