听到并阅读了很多关于正则化的信息,有助于减少过度拟合。但我不确定正则化在减少过度拟合问题方面究竟是如何起作用的,它背后的数学原理是什么?欣赏是否有人可以提供一个具体的例子?
过拟合和与正则化的关联
数据挖掘
过拟合
正则化
2022-03-09 13:06:18
2个回答
这取决于您想到的正则化,因为有多种形式。
以岭回归的简单示例为例,它在权重上添加了 L2 惩罚,. 很明显,将权重限制为零,但也许你在问它来自哪里。
我更喜欢它的贝叶斯解释,这对应于权重的高斯先验。这意味着您认为您事先对权重的所有了解是它们最有可能为 0(均值为 0),据您所知,它们不相关(独立),并且它们更有可能接近 0比它远,以同样的方式(标准偏差选择较小的地方表示您认为权重更可能接近 0)。
这来自于将回归视为寻找最有可能给定数据的参数,,与由贝叶斯法则。最大化这个概率意味着最大化它的对数,或者. 这是导致正则化项的第二项。
如果是多元高斯,或那么它的分布是(忽略前面无关紧要的大乘法常数):. 它的日志,再次丢弃无关紧要的常量,是, 最大化它意味着最小化.
协方差矩阵然而,这里很简单;因为先验概率是独立的,它是一个对角矩阵,并且因为我们假设方差相等,所以它们在对角线上的值相同,我们称之为. 它的逆矩阵是一个对角矩阵在对角线上 ()。只是点与自身,这是它的 L2 范数,或. 和中间只是结束意味着整个事情乘以. 因此我们最小化如预期的。
这就是正则化与其“含义”之间的联系:你不相信所有的权重都是可能的,你相信它们接近于 0意味着较小的方差因此暗示您更强烈地相信权重接近 0。添加此项使计算平衡数据的可能性与实现该可能性所需的权重的先验可能性。
其它你可能感兴趣的问题