在深度学习中,优化自适应学习率非常重要。有许多流行的自适应学习率算法。
相比之下,所有领先的梯度提升机器的超参数只涉及设置一个固定的学习率。直观地说,使用递减的学习率或可能是山形的学习率可能是有意义的。
在如何实现 GBM 方面是否存在任何明显的机械限制,这会使自适应学习率变得困难?如果不是,是否有一个简单的论据来解释为什么恒定速率对 GBM 比对深度学习更有意义?
更新: LightGBM 上下文中的相关讨论。
在深度学习中,优化自适应学习率非常重要。有许多流行的自适应学习率算法。
相比之下,所有领先的梯度提升机器的超参数只涉及设置一个固定的学习率。直观地说,使用递减的学习率或可能是山形的学习率可能是有意义的。
在如何实现 GBM 方面是否存在任何明显的机械限制,这会使自适应学习率变得困难?如果不是,是否有一个简单的论据来解释为什么恒定速率对 GBM 比对深度学习更有意义?
更新: LightGBM 上下文中的相关讨论。