RMSProp - 外行?

数据挖掘 机器学习 统计数据 优化
2022-02-16 20:15:13

有人可以用外行的方式解释 RMSprop 吗?我尝试阅读各种资源,但他们没有谈论对几件事的直觉:

1) 为什么与 SGD 的动量不同?2)为什么它实际上有效?

我能找到的唯一文献是编写这种优化技术的教授的幻灯片,而这些幻灯片对我来说没有多大意义。

谢谢

1个回答

动量的作用是对参数空间中不同方向的导数进行平均,以使振荡较多的方向接近于零,但对于不振荡的参数,情况并非如此——平均不会消失。

另一方面,RMSprop 在所有方向上都起到阻尼器的作用:导数越大,阻尼率越大。这意味着具有大导数的快速振荡模式将受到更多抑制。您想要保持的慢速学习也可能会受到抑制,但速度会更小。

您可以在以下 Coursera 课程中找到有关 RMSprop 及其组合 Adam 的更多详细信息:

https://www.coursera.org/learn/deep-neural-network/lecture/y0m1f/gradient-descent-with-momentum