给定,我们有一个学习率,为了梯度下降过程的步骤。使用常数值会有什么影响在梯度下降?
梯度体面的恒定学习率
数据挖掘
梯度下降
学习率
2022-03-08 06:37:15
2个回答
直觉上,如果太大,您可能会“射过”您的目标并最终在搜索空间中弹跳而不会收敛。如果太小,您的收敛速度会很慢,您最终可能会陷入高原或局部最小值。
这就是为什么大多数学习率方案从稍大的学习率开始以获得快速收益,然后逐渐降低学习率。
梯度下降具有以下规则:
这里是模型的参数,并且是成本/损失函数。在每一步产品随着我们接近梯度变得更小收敛到 0。可以是恒定的,在许多情况下,它是,但变化的可能有助于更快地收敛。
其它你可能感兴趣的问题