在一个玩具示例上绘制来自不同梯度下降优化器的成本表面上的路径,我发现 Adam 算法最初并没有沿着最陡梯度的方向行进(普通梯度下降确实如此)。为什么会这样?
受动量等影响的后续步骤,但我认为这些影响不会在最初的几个步骤中发挥作用。
在一个玩具示例上绘制来自不同梯度下降优化器的成本表面上的路径,我发现 Adam 算法最初并没有沿着最陡梯度的方向行进(普通梯度下降确实如此)。为什么会这样?
受动量等影响的后续步骤,但我认为这些影响不会在最初的几个步骤中发挥作用。
这些是 Adam [Ref - Dive Into Deep Learning ]的方程式
初始值为 - [参考 - Arxiv 论文]
注意- ** - 它初始化为 0,但在任何其他操作之前在循环中递增
这些默认值将使
因此,初始移动将不与梯度成正比。