过拟合和与正则化的关联

数据挖掘 过拟合 正则化
2022-03-09 13:06:18

听到并阅读了很多关于正则化的信息,有助于减少过度拟合。但我不确定正则化在减少过度拟合问题方面究竟是如何起作用的,它背后的数学原理是什么?欣赏是否有人可以提供一个具体的例子?

2个回答

简短的回答是正则化会惩罚模型的复杂性。它通过将参数的一些函数添加到基本成本函数作为正则化项来实现这一点。这通过使参数接近于零来强制在训练数据的良好拟合(低误差)和模型简单性之间进行折衷。这减少了过度拟合,因为大参数(就幅度而言)是过度拟合背后的罪魁祸首。

例如,L1 正则化使用权重的绝对值之和,而 L2 正则化使用权重的平方。更详细的比较在这里

有关数学细节,请查看此答案

这取决于您想到的正则化,因为有多种形式。

以岭回归的简单示例为例,它在权重上添加了 L2 惩罚,λiωi2. 很明显,将权重限制为零,但也许你在问它来自哪里。

我更喜欢它的贝叶斯解释,这对应于权重的高斯先验。这意味着您认为您事先对权重的所有了解是它们最有可能为 0(均值为 0),据您所知,它们不相关(独立),并且它们更有可能接近 0比它远,以同样的方式(标准偏差σ选择较小的地方σ表示您认为权重更可能接近 0)。

这来自于将回归视为寻找最有可能给定数据的参数,P(ω|X),与P(X|ω)P(ω)由贝叶斯法则。最大化这个概率意味着最大化它的对数,或者log(P(X|ω))+log(P(ω)). 这是导致正则化项的第二项。

如果P(ω)是多元高斯,或N(0,Σ)那么它的分布是(忽略前面无关紧要的大乘法常数):e12ωTΣ1ω. 它的日志,再次丢弃无关紧要的常量,是ωTΣ1ω, 最大化它意味着最小化ωTΣ1ω.

协方差矩阵Σ然而,这里很简单;因为先验概率是独立的,它是一个对角矩阵,并且因为我们假设方差相等,所以它们在对角线上的值相同,我们称之为1λ. 它的逆矩阵是一个对角矩阵λ在对角线上 (λI)。ωTω只是点ω与自身,这是它的 L2 范数,或iωi2. Σ1中间只是结束意味着整个事情乘以λ. 因此我们最小化λiωi2如预期的。

这就是正则化与其“含义”之间的联系:你不相信所有的权重都是可能的,你相信它们接近于 0λ意味着较小的方差1λ因此暗示您更强烈地相信权重接近 0。添加此项使计算平衡数据的可能性与实现该可能性所需的权重的先验可能性。