机器算法验证 - 梯度提升机器会从自适应学习率中受益吗？ - 吾爱随笔录

在深度学习中，优化自适应学习率非常重要。有许多流行的自适应学习率算法。

相比之下，所有领先的梯度提升机器的超参数只涉及设置一个固定的学习率。直观地说，使用递减的学习率或可能是山形的学习率可能是有意义的。

在如何实现 GBM 方面是否存在任何明显的机械限制，这会使自适应学习率变得困难？如果不是，是否有一个简单的论据来解释为什么恒定速率对 GBM 比对深度学习更有意义？

更新： LightGBM 上下文中的相关讨论。