机器算法验证 - 为什么批量规范具有可学习的规模和转变？ - 吾爱随笔录

据我了解，批量规范将所有输入特征归一化到一个层到一个单位正态分布， $\mathcal{N}(\mu=0,\sigma=1)$ . 均值和方差 $\mu, \sigma^2$ 通过测量当前小批量的值来估计。

归一化后，输入按标量值缩放和移位：

{\hat{x}}_{i}^{'} = γ {\hat{x}}_{i} + β

$\hat{x}_i' = \gamma \hat{x}_i + \beta$

（如果我在这里错了，请纠正我 - 这是我开始有点不确定的地方。）

$\gamma$ 和 $\beta$ 是标量值，每个批次标准化层都有一对。它们与使用反向传播和 SGD 的权重一起学习。

我的问题是，这些参数不是多余的，因为输入可以通过层本身的权重以任何方式缩放和移动。换句话说，如果

y = W {\hat{x}}^{'} + b

$y = W \hat{x}' + b$

和

{\hat{x}}^{'} = γ \hat{x} + β

$\hat{x}' = \gamma \hat{x} + \beta$

然后

y = W^{'} \hat{x} + b^{'}

$y = W' \hat{x} + b'$

在哪里 $W' = W\gamma$ 和 $b'=W\beta + b$ .

那么添加它们的网络已经能够学习规模和转变有什么意义呢？还是我完全误解了事情？