(特征选择)基于 L2 和基于树的不同结果

数据挖掘 scikit-学习 特征选择
2022-02-27 20:18:57

我正在使用 Sklearn 进行特征选择:

  • 基于树的特征选择:RandomForestClassifier.feature_importances_
  • 基于 L2 的特征选择:LogisticRegression.coef_

目标变量是二进制类。训练集是标准化的。

当某个特征在随机森林估计器中显示显着重要性,但在逻辑回归中显示负系数时,我应该如何解释?

1个回答

逻辑回归中的负系数意味着预测变量和响应变量之间的负相关。

例如,模型中的价格可以是一个预测变量,并且与购买或不购买的二元响应变量产品有负相关。

并且逻辑回归中的负系数并不意味着关系强度低,它仅意味着预测变量的变化对响应变量有反向影响,如果系数是高度负的,则意味着特征非常重要并且它的微小变化会影响响应但方向相反.

特征重要性不会告诉您关系的性质或方向,而只会告诉您关系的强度,因此它们永远不会是负面的。逻辑回归中的系数可以告诉您关系的强度和方向或性质(正或负)。随机森林中的高重要性也意味着预测变量和响应之间的强关系,但从基于树的模型得出的重要性列对性质或方向保持沉默。

希望这可以帮助。