数据归一化:它确保每个输入(在这种情况下是每个像素值)都来自标准分布。这种标准化使我们的模型训练并更快地达到最小错误!
我的问题是关于标准化的,我不明白输入数据在 0 和 1 之间与梯度体面更快甚至正确(预测良好)之间的关系,为什么会这样,我对深度数学证明非常满意。
数据归一化:它确保每个输入(在这种情况下是每个像素值)都来自标准分布。这种标准化使我们的模型训练并更快地达到最小错误!
我的问题是关于标准化的,我不明白输入数据在 0 和 1 之间与梯度体面更快甚至正确(预测良好)之间的关系,为什么会这样,我对深度数学证明非常满意。
像素值的标准化来自相同的逻辑标准化数据,以使梯度下降(或其他一些类似的优化算法)更快。当您向 NN 提供图像时,它与其他数据类型没有什么不同,这意味着您提供了具有不同特征(或者说变量)的样本。当图像是一个案例时,您的特征就是您的像素。也就是说,如果你有一个 32x32 的图像,这意味着你有 1024 个特征。如果您的输入是 RGB,它会创建 3 个维度,使您的特征大小为 32x32x3,即 3072。换句话说,在这种情况下,您的变量是数据集中所有图像的特定像素。您的图像只是具有 3072 个特征的单行数据,例如在一个简单的回归问题中,例如,使用 5 个特征位置、大小、建筑物的年龄来预测房价,
现在,在详细介绍之前,让我们首先考虑一下为什么分布可能会有所不同。根据您的图像类型,您的特定通道值可能比其他通道值具有更大的差异。例如,如果您的数据样本、图像是关于植物、树木或森林的,那么您的绿色和蓝色通道值可能会有很大差异,但您的红色通道的值将始终接近 0。因此,代表这些渠道的分布与其他渠道不同。
需要考虑的另一件事是像素(即使是灰度图像)由于自然原因具有不同的分布。例如,考虑所有图像都是人的身份证照片的数据集,其中背景是白色的。在这种情况下,由于所有图像的颜色值几乎相同,某些像素(可能是左上角和右上角的像素)的方差接近于零。
这两种情况导致特定像素的值可能为0-10,另一种为3-240,另一种为126-255等。在这种情况下,需要处理的是相同的问题正如 Andrew NG 在此视频中所说的那样。由于您的值的范围将在 3072(例如)维度中变化,因此与另一维度相比,梯度下降将需要更多步骤才能在一个维度中找到最佳值。这是因为您的步长是固定的。考虑一下,一个梯子上有 100 个梯级,另一个梯子有 12 个梯级。在正常人类步长 1 的情况下,哪一个爬得更快?后者。
简而言之,由于对于 NN 中的所有特征都使用相同的参数,因此期望这些参数以相同的方式(或客观地)影响特征,这些特征应该显示出相似的特征。如果不是这样,与其他功能相比,某些功能可能会从这些参数中获得更多优势。