在“统计学习的要素”第 395 页中,作者指出,相对于 R(θ),神经网络(例如多层感知器)中的回归/分类误差函数:
通常我们不想要 R(θ) 的全局最小化器,因为这可能是一个过拟合的解决方案。相反,需要一些正则化:这可以通过惩罚项直接实现,或者通过提前停止间接实现。下一节将给出详细信息。
然而,在反向传播中,当描述动量正则化时,图 9 显示了反向传播过程应如何引导误差函数朝向其全局最小值,避免沿途发现的任何局部最小值。
为什么这两个推理是兼容的?我唯一能想到的是,我们希望获得每个系数误差的全局最小值(在反向传播过程中计算),而不是针对“全局”误差函数进行调整。我是否正确解释了这一点?