在查看 sklearn 的 OneHotEncoder 文档(附在下面)时,我注意到在应用正则化(例如,套索、岭等)时,不建议放弃第一个类别。虽然我理解为什么删除第一个类别会防止共线性,但我不确定为什么正则化回归需要它。这不会增加一个需要规范化的额外维度吗?
删除{'first', 'if_binary'}
指定用于删除每个功能的一个类别的方法。这在完全共线特征导致问题的情况下很有用,例如将结果数据输入神经网络或非正则化回归时。 但是,删除一个类别会破坏原始表示的对称性,因此可能会导致下游模型出现偏差,例如惩罚线性分类或回归模型。