梯度体面的恒定学习率

数据挖掘 梯度下降 学习率
2022-03-08 06:37:15

给定,我们有一个学习率,αn为了nH梯度下降过程的步骤。使用常数值会有什么影响αn在梯度下降?

2个回答

直觉上,如果α太大,您可能会“射过”您的目标并最终在搜索空间中弹跳而不会收敛。如果α太小,您的收敛速度会很慢,您最终可能会陷入高原或局部最小值。

这就是为什么大多数学习率方案从稍大的学习率开始以获得快速收益,然后逐渐降低学习率。

梯度下降具有以下规则:

θj:=θj-αδδθjĴ(θ)

这里θj是模型的参数,并且Ĵ是成本/损失函数。在每一步产品αδδθjĴ(θ)随着我们接近梯度变得更小δδθjĴ(θ)收敛到 0。α可以是恒定的,在许多情况下,它是,但变化的α可能有助于更快地收敛。