是否存在岭回归可以将系数缩小为零的特殊情况?

机器算法验证 机器学习 套索 岭回归
2022-04-10 07:06:47

是否有一些特殊情况,岭回归也可能导致系数为零?众所周知,套索将系数缩小到零或零,而岭回归不能将系数缩小到零

3个回答

假设,与最小二乘法的情况一样,您试图通过最小化目标函数 (例如残差的平方和)来解决(向量值)参数的统计估计问题)。岭回归通过添加参数平方的非负线性组合处具有唯一的全局最小值。βQ(β)P(β). Pβ=0.

问题是,的全局最小值可能出现在Q+Pβ=0 假设,就像在最小二乘法中一样,的邻域内是可微的。 因为的全局最小值,所以它是局部最小值,这意味着它的所有偏导数都是微分 求和规则意味着Q0.0Q+P0.

βi(Q(β)+P(β))=βiQ(β)+βiP(β)=Qi(β)+Pi(β)
但是由于 ,这意味着所有这使得至少是原始目标函数的局部最小值。 在任何最小二乘技术的情况下,每个局部最小值也是全局最小值。这迫使我们得出结论β=0.Pi(0)=0i,Qi(0)=0i,0Q.

最小二乘过程的二次正则化(“岭回归”)有作为解当且仅当是原始未正则化问题的解。β=0β=0

当传统的 OLS 回归也会给您零系数时,传统的 OLS 岭回归确实只会返回零系数 - 其他系数的收缩可能接近零,但实际上永远不会等于零。同样,如果您使用非负最小二乘岭回归系数也只会在常规非负最小二乘 (nnls) 拟合中为零时才变为零。

当在岭回归中使用自适应惩罚权重并且这种自适应岭回归被迭代时,事情变得有点不同 - 在这种情况下,一些系数会渐近(经过多次迭代)趋于零(或最终小于机器精度和四舍五入到零)并通过选择适当的自适应权重,您可以使用此方案来近似 L0-pseudonorm 惩罚回归(与经过良好调整的 lambda 相结合将近似最佳子集选择)。所以在这种情况下,迭代自适应岭回归可以用于变量选择,这实际上效果很好。您可以在本次演讲本文中找到详细信息。基本上,你只需要选择lambdas你的脊惩罚你的p其中变量是由 给出的向量,其中lambda * penweights一个小数,例如,并且是先前自适应脊迭代中的估计系数(在第一次迭代中,它们可以设置为 1)。特别是结合非负性约束(可以通过拟合岭回归和行增加协变量矩阵与沿对角线的平方根的矩阵相结合,即,这可以很快收敛,通常收敛到 L0 -norm 10 或 20 次迭代中的惩罚解决方案。penweights1/(betahat^2+delta^2)delta1E-5betahatnnlslambdasnnls(A=rbind(X, sqrt(lambdas) * diag(1, p)), b=c(y, rep(0,p)) )$x

我认为它可以,而且它实际上非常频繁地这样做(将一些系数缩小到接近零)。如果您在互联网上搜索“图像”并搜索“岭回归系数路径”,您将看到大量岭回归模型的视觉输出及其各自的系数路径输出。

您会注意到,一些可变系数路径经常显示实际系数翻转符号。根据定义,这意味着在一个方向符号和另一个方向符号之间的转换中,相应的系数必须穿过零障碍(图中定义零的水平线)。并且,此时系数必须非常接近于零。

这实际上引出了另一个要点。岭回归可能不像许多人想象的那么稳健。当您查看岭回归系数路径时,您通常会观察到最有影响力的系数(具有最高的标准化回归系数)收缩得最多。而且,这是岭回归惩罚算法的直接函数,它缩小了回归系数的平方和。如前所述,更糟糕的是当岭回归导致变量系数的方向符号发生变化时。因此,您可能从一个具有逻辑和经济理论支持的解释力的模型开始。并且,在使用 Ridge 回归(或 Lasso 和 Elastic-net)对其进行正则化之后,您的模型就没有原始的解释能力、逻辑等。