亚当优化器第一步

数据挖掘 机器学习 神经网络 梯度下降 优化 势头
2022-03-02 13:08:46

在一个玩具示例上绘制来自不同梯度下降优化器的成本表面上的路径,我发现 Adam 算法最初并没有沿着最陡梯度的方向行进(普通梯度下降确实如此)。为什么会这样?

受动量等影响的后续步骤,但我认为这些影响不会在最初的几个步骤中发挥作用。

1个回答

这些是 Adam [Ref - Dive Into Deep Learning ]的方程式

vtβ1vt1+(1β1)gtstβ2st1+(1β2)gt2

v^t=vt1β1t and s^t=st1β2t

gt=ηv^ts^t+ϵ

xtxt1gt

  • 前两个是动量的积累和梯度的第二个矩
  • 第二组用于校正初始偏差
  • 最后两个是参数更新

初始值为 - [参考 - Arxiv 论文]

v=s=0;t=1;β1=0.9;β2=0.999;ϵ=108
注意- ** - 它初始化为 0,但在任何其他操作之前在循环中递增

这些默认值将使

g0=η (approximated for ϵ )
因此,初始移动将不与梯度成正比。