数据挖掘 - 神经网络误差函数：全局最小值是否可取？ - 吾爱随笔录 - 问答

神经网络误差函数：全局最小值是否可取？

数据挖掘神经网络正则化感知器

2022-03-05 22:54:23

在“统计学习的要素”第 395 页中，作者指出，相对于 R(θ)，神经网络（例如多层感知器）中的回归/分类误差函数：

通常我们不想要 R(θ) 的全局最小化器，因为这可能是一个过拟合的解决方案。相反，需要一些正则化：这可以通过惩罚项直接实现，或者通过提前停止间接实现。下一节将给出详细信息。

然而，在反向传播中，当描述动量正则化时，图 9 显示了反向传播过程应如何引导误差函数朝向其全局最小值，避免沿途发现的任何局部最小值。

为什么这两个推理是兼容的？我唯一能想到的是，我们希望获得每个系数误差的全局最小值（在反向传播过程中计算），而不是针对“全局”误差函数进行调整。我是否正确解释了这一点？

1个回答

描述动量的图有点误导，因为它只考虑了一个非常简单的情况。通常，动量会帮助您不要过早陷入局部最小值，因此您最终会处于更好但仍然是局部最小值的状态。

动量可以帮助您更快地收敛，但不能保证最终达到全局最小值。在图像分类等神经网络的流行用例中，误差函数将非常复杂，因此使用基于梯度的方法达到全局最小值总是不可行的。但实践表明，将误差降低到局部最小值仍然会产生良好的结果。

此外，动量与其他形式的正则化兼容。您可以将动量应用于任何正则化成本函数。Elements of Statistical Learning 中的陈述更具有一般性，这意味着即使您可以达到全局最小值，它也不是可取的，因为它很可能不是能够为您提供最佳概括的解决方案（即使它具有最佳训练（！）错误）。

其它你可能感兴趣的问题

上一篇带概率的离散序数分类下一篇sklearn KMeans 的替代算法，通过相似性分隔值？