为什么 Adam 优化器中的参数更新会被非中心方差(而不是中心方差)缩小?

数据挖掘 机器学习 深度学习 优化
2022-03-05 00:27:17

在 Adam 优化器算法中,参数更新计算如下:

θtθt1αm^tv^t+ϵ

在哪里m^t是梯度均值的偏差校正移动平均值:

m^tβ1mt1+(1β1)gt

v^t是未居中方差的偏差校正移动平均值:

v^tβ2mt1+(1β2)gt2

我理解这样的想法,如果均值与方差相比较大,则可以更信任梯度,您应该采取更大的步骤。但是在这种情况下,在上面的公式中使用中心方差而不是非中心方差不是更合乎逻辑吗?

我寻找答案并找到了这个帖子,但我仍然不相信答案。本质上,解释是非中心方差大致等于中心方差,因为平均梯度近似为零。但是如果平均梯度为零,这意味着你同样有可能向任何方向移动,所以你没有优化任何东西......

那么,为什么 Adam 优化器使用非中心方差呢?为什么不使用看起来更合乎逻辑的居中方差?

1个回答

如果有的话,你无法获得平均值。当我们谈论方差时,我们谈论的是分布的方差。在这种情况下,分布是优化过程每一步的梯度的总集合,直到你完成后你才知道。