数据挖掘 - 梯度体面的恒定学习率 - 吾爱随笔录

梯度体面的恒定学习率

数据挖掘梯度下降学习率

2022-03-08 06:37:15

给定，我们有一个学习率， $\alpha_n$ 为了 $n^{th}$ 梯度下降过程的步骤。使用常数值会有什么影响 $\alpha_n$ 在梯度下降？

2个回答

直觉上，如果 $\alpha$ 太大，您可能会“射过”您的目标并最终在搜索空间中弹跳而不会收敛。如果 $\alpha$ 太小，您的收敛速度会很慢，您最终可能会陷入高原或局部最小值。

这就是为什么大多数学习率方案从稍大的学习率开始以获得快速收益，然后逐渐降低学习率。

梯度下降具有以下规则：

$\theta_{j} := \theta_{j} - \alpha \frac{\delta}{\delta \theta_{j}} J(\theta)$

这里 $\theta_{j}$ 是模型的参数，并且 $J$ 是成本/损失函数。在每一步产品 $\alpha \frac{\delta}{\delta \theta_{j}} J(\theta)$ 随着我们接近梯度变得更小 $\frac{\delta}{\delta \theta_{j}} J(\theta)$ 收敛到 0。 $\alpha$ 可以是恒定的，在许多情况下，它是，但变化的 $\alpha$ 可能有助于更快地收敛。

其它你可能感兴趣的问题

上一篇如何根据用户的口味将用户与另一个用户匹配？下一篇图像分类前的数据预处理