二阶优化方法中的曲率信息如何提供帮助

数据挖掘 神经网络 优化 梯度下降
2022-02-17 01:55:28

据说神经网络中的二阶优化方法比一阶更有效,因为它们包含有关梯度变化率或曲率的信息。此信息有助于选择更好的步长以在误差面上向前移动。目前尚不清楚梯度变化率如何控制步长并导致更好的优化。为简单起见,仅考虑一次权重更新迭代。

1个回答

您需要考虑一阶优化过程的两个步骤,以了解二阶方法为何有用。(为了更清楚,我们将在一维中工作)。

第一步:计算导数并相应地移动您的评估点。然后,第二步:计算导数并相应地移动您的评估点。如果第二步中的导数比第一步大/小,那么您在第二步中的移动量将比在第一步中少/多。因此,沿路径的导数变化率会影响步长的变化。因此,如果您在第一步中获得了有关导数变化率的信息,最好将其直接纳入您的第一步计算中。最后,二阶导数可能能够找到更合适的步长,这是相当直观的。

实际上,它有点复杂,因为性能的实际增益取决于如何计算/近似二阶导数。(见这里