神经网络误差函数:全局最小值是否可取?

数据挖掘 神经网络 正则化 感知器
2022-03-05 22:54:23

在“统计学习的要素”第 395 页中,作者指出,相对于 R(θ),神经网络(例如多层感知器)中的回归/分类误差函数:

通常我们不想要 R(θ) 的全局最小化器,因为这可能是一个过拟合的解决方案。相反,需要一些正则化:这可以通过惩罚项直接实现,或者通过提前停止间接实现。下一节将给出详细信息。

然而,在反向传播中,当描述动量正则化时,图 9 显示了反向传播过程应如何引导误差函数朝向其全局最小值,避免沿途发现的任何局部最小值。

为什么这两个推理是兼容的?我唯一能想到的是,我们希望获得每个系数误差的全局最小值(在反向传播过程中计算),而不是针对“全局”误差函数进行调整。我是否正确解释了这一点?

1个回答

描述动量的图有点误导,因为它只考虑了一个非常简单的情况。通常,动量会帮助您不要过早陷入局部最小值,因此您最终会处于更好但仍然是局部最小值的状态。

动量可以帮助您更快地收敛,但不能保证最终达到全局最小值。在图像分类等神经网络的流行用例中,误差函数将非常复杂,因此使用基于梯度的方法达到全局最小值总是不可行的。但实践表明,将误差降低到局部最小值仍然会产生良好的结果。

此外,动量与其他形式的正则化兼容。您可以将动量应用于任何正则化成本函数。Elements of Statistical Learning 中的陈述更具有一般性,这意味着即使您可以达到全局最小值,它也不是可取的,因为它很可能不是能够为您提供最佳概括的解决方案(即使它具有最佳训练(!)错误)。