梯度下降中的线搜索应用于凸函数

数据挖掘 机器学习 梯度下降
2022-03-06 13:19:44

我一直在努力实现梯度下降的线搜索方法,我假设在损失函数表面的任何给定点上,我可以通过学习率的单个正确值达到最小值η我应该选择哪个。我一直在尝试使用二分搜索找到这个学习率,但是在整个实现之后,我意识到我所做的假设是错误的,这意味着我无法从损失函数表面上的任何给定点直接达到我的最小值一步给定学习率。我能否更直观地解释为什么我最初的假设是错误的?

编辑:我的损失函数是凸的,并且有大量我正在尝试学习的参数(多维)

1个回答

这不是一个完美的例子,但希望这个想法很清楚。如果你从 0 左边的点开始,小的学习率永远不会让它超出左边的局部最小值。但是足够大的学习率以离开该局部最小值将永远不会让它稳定在右侧的全局最小值上。

衰减的学习率可能适用于这一点。

在此处输入图像描述