数据挖掘 - 关于梯度下降方程的一个基本问题 - 吾爱随笔录

所以在经典的梯度下降中，我们有

W -= epsilon * (dL / dW)

但是，如果我们认为 L 和 W 有一些单位，这有什么意义呢？考虑一下不是更明智吗

W -= epsilon * (dW / dL) （其中 epsilon 现在代表损失的小幅度变化并具有相应的单位）

还要注意，如果我们不在导数为 0 的点上，我们可以考虑函数的“局部逆”，L(W)我们会得到dL/dW = 1/ (dW/dL)。因此，这两个备选方案的符号是相等的——唯一不同的是我们应用于 W 的修改的大小。

以标准方式，我们在更陡峭的区域上迈出了更大的一步。“我的”变体则相反。想象一下，W 的变化导致损失的变化非常小：那么根据我提出的方法，在 W 的更新期间过度补偿这一点是有意义的。我哪里错了？