我一直在努力实现梯度下降的线搜索方法,我假设在损失函数表面的任何给定点上,我可以通过学习率的单个正确值达到最小值我应该选择哪个。我一直在尝试使用二分搜索找到这个学习率,但是在整个实现之后,我意识到我所做的假设是错误的,这意味着我无法从损失函数表面上的任何给定点直接达到我的最小值一步给定学习率。我能否更直观地解释为什么我最初的假设是错误的?
编辑:我的损失函数是凸的,并且有大量我正在尝试学习的参数(多维)
我一直在努力实现梯度下降的线搜索方法,我假设在损失函数表面的任何给定点上,我可以通过学习率的单个正确值达到最小值我应该选择哪个。我一直在尝试使用二分搜索找到这个学习率,但是在整个实现之后,我意识到我所做的假设是错误的,这意味着我无法从损失函数表面上的任何给定点直接达到我的最小值一步给定学习率。我能否更直观地解释为什么我最初的假设是错误的?
编辑:我的损失函数是凸的,并且有大量我正在尝试学习的参数(多维)