数据挖掘 - 为什么 ML 的标准分布 - 吾爱随笔录

为什么 ML 的标准分布

数据挖掘机器学习梯度下降正常化

2022-02-27 06:12:31

数据归一化：它确保每个输入（在这种情况下是每个像素值）都来自标准分布。这种标准化使我们的模型训练并更快地达到最小错误！

我的问题是关于标准化的，我不明白输入数据在 0 和 1 之间与梯度体面更快甚至正确（预测良好）之间的关系，为什么会这样，我对深度数学证明非常满意。

1个回答

像素值的标准化来自相同的逻辑标准化数据，以使梯度下降（或其他一些类似的优化算法）更快。当您向 NN 提供图像时，它与其他数据类型没有什么不同，这意味着您提供了具有不同特征（或者说变量）的样本。当图像是一个案例时，您的特征就是您的像素。也就是说，如果你有一个 32x32 的图像，这意味着你有 1024 个特征。如果您的输入是 RGB，它会创建 3 个维度，使您的特征大小为 32x32x3，即 3072。换句话说，在这种情况下，您的变量是数据集中所有图像的特定像素。您的图像只是具有 3072 个特征的单行数据，例如在一个简单的回归问题中，例如，使用 5 个特征位置、大小、建筑物的年龄来预测房价，

现在，在详细介绍之前，让我们首先考虑一下为什么分布可能会有所不同。根据您的图像类型，您的特定通道值可能比其他通道值具有更大的差异。例如，如果您的数据样本、图像是关于植物、树木或森林的，那么您的绿色和蓝色通道值可能会有很大差异，但您的红色通道的值将始终接近 0。因此，代表这些渠道的分布与其他渠道不同。

需要考虑的另一件事是像素（即使是灰度图像）由于自然原因具有不同的分布。例如，考虑所有图像都是人的身份证照片的数据集，其中背景是白色的。在这种情况下，由于所有图像的颜色值几乎相同，某些像素（可能是左上角和右上角的像素）的方差接近于零。

这两种情况导致特定像素的值可能为0-10，另一种为3-240，另一种为126-255等。在这种情况下，需要处理的是相同的问题正如 Andrew NG 在此视频中所说的那样。由于您的值的范围将在 3072（例如）维度中变化，因此与另一维度相比，梯度下降将需要更多步骤才能在一个维度中找到最佳值。这是因为您的步长是固定的。考虑一下，一个梯子上有 100 个梯级，另一个梯子有 12 个梯级。在正常人类步长 1 的情况下，哪一个爬得更快？后者。

简而言之，由于对于 NN 中的所有特征都使用相同的参数，因此期望这些参数以相同的方式（或客观地）影响特征，这些特征应该显示出相似的特征。如果不是这样，与其他功能相比，某些功能可能会从这些参数中获得更多优势。

其它你可能感兴趣的问题

上一篇使用 numpy.vstack 展开以连接的 28x28 mnist 图像。为什么 numpy.vstack 这么慢？下一篇二进制分类中的宏平均