在神经网络的背景下,我理解批量标准化可确保神经网络每一层的激活不会“爆炸”并导致网络出现偏差。但是,我不明白为什么将它与其他归一化技术(例如余弦或权重归一化)相反,它们实现了相同的目标并且似乎在计算上不再复杂。
有人可以向我解释一下使用批量规范化与其他规范化技术的优缺点,哪些上下文批量规范最有益?
在神经网络的背景下,我理解批量标准化可确保神经网络每一层的激活不会“爆炸”并导致网络出现偏差。但是,我不明白为什么将它与其他归一化技术(例如余弦或权重归一化)相反,它们实现了相同的目标并且似乎在计算上不再复杂。
有人可以向我解释一下使用批量规范化与其他规范化技术的优缺点,哪些上下文批量规范最有益?
余弦归一化是我们绑定点积并因此减少方差这一事实的结果,当我们在神经网络中使用余弦相似度或中心余弦相似度而不是点积时(这是 NN 中的准基石)
余弦归一化的主要好处是余弦归一化将神经元的预激活限制在更窄的范围内,从而使神经元的方差更低。
此外,它不依赖于批量或小批量示例的任何统计数据,并且在训练和推理时间在前向传播中执行相同的计算。在卷积网络中,它对来自感受野的神经元进行归一化,而不是对相同的层或批次大小进行归一化。
看看这篇论文,展示你提到的标准化之间的经验比较。CN 位居榜首。