数据挖掘 - 为正则化线性模型删除一个类别 - 吾爱随笔录

在查看 sklearn 的 OneHotEncoder 文档（附在下面）时，我注意到在应用正则化（例如，套索、岭等）时，不建议放弃第一个类别。虽然我理解为什么删除第一个类别会防止共线性，但我不确定为什么正则化回归需要它。这不会增加一个需要规范化的额外维度吗？

删除{'first', 'if_binary'}

指定用于删除每个功能的一个类别的方法。这在完全共线特征导致问题的情况下很有用，例如将结果数据输入神经网络或非正则化回归时。 但是，删除一个类别会破坏原始表示的对称性，因此可能会导致下游模型出现偏差，例如惩罚线性分类或回归模型。