在 Adam 优化器算法中,参数更新计算如下:
在哪里是梯度均值的偏差校正移动平均值:
和是未居中方差的偏差校正移动平均值:
我理解这样的想法,如果均值与方差相比较大,则可以更信任梯度,您应该采取更大的步骤。但是在这种情况下,在上面的公式中使用中心方差而不是非中心方差不是更合乎逻辑吗?
我寻找答案并找到了这个帖子,但我仍然不相信答案。本质上,解释是非中心方差大致等于中心方差,因为平均梯度近似为零。但是如果平均梯度为零,这意味着你同样有可能向任何方向移动,所以你没有优化任何东西......
那么,为什么 Adam 优化器使用非中心方差呢?为什么不使用看起来更合乎逻辑的居中方差?