是否有可能理解为什么 Lasso 模型消除了特定的系数?在建模过程中,数据中的许多高度相关的特征正在被 Lasso 回归消除。有没有可能为什么这些特征正从模型中被消除?(是否存在任何其他特征/多重共线性等?我想解释套索模型的行为。非常感谢您的帮助。
是否可以解释为什么 Lasso 模型消除了某些系数?
数据挖掘
线性回归
相关性
正则化
套索
线性模型
2022-02-27 21:15:32
1个回答
看看“统计学习简介”(第 6.2.2 章)。Lasso 在原来的 OLS 惩罚上增加了一个额外的惩罚项。除了残差平方和(RSS,在 OLS 中最小化)之外,还有一个附加项,即收缩惩罚。基本上,对“良好拟合”贡献不大的系数会缩小。其实有一套对于每个(调整参数)。
不知道您的数据,我只能猜测您的许多高度相关的特征对模型中的“良好拟合”“贡献不大”。这可能是多重共线性的结果。然而,Lasso 本身并没有“收缩”具有高相关性的特征。它宁愿寻找系数的子集这会产生“良好的配合”。
您可以检查多重共线性是否是数据中的一个严重问题,例如通过查看方差膨胀因子 (VIF)并删除具有(非常)高相关性的可能特征。
其它你可能感兴趣的问题
