我正在使用 Sklearn 进行特征选择:
- 基于树的特征选择:RandomForestClassifier.feature_importances_
- 基于 L2 的特征选择:LogisticRegression.coef_
目标变量是二进制类。训练集是标准化的。
当某个特征在随机森林估计器中显示显着重要性,但在逻辑回归中显示负系数时,我应该如何解释?
我正在使用 Sklearn 进行特征选择:
目标变量是二进制类。训练集是标准化的。
当某个特征在随机森林估计器中显示显着重要性,但在逻辑回归中显示负系数时,我应该如何解释?
逻辑回归中的负系数意味着预测变量和响应变量之间的负相关。
例如,模型中的价格可以是一个预测变量,并且与购买或不购买的二元响应变量产品有负相关。
并且逻辑回归中的负系数并不意味着关系强度低,它仅意味着预测变量的变化对响应变量有反向影响,如果系数是高度负的,则意味着特征非常重要并且它的微小变化会影响响应但方向相反.
特征重要性不会告诉您关系的性质或方向,而只会告诉您关系的强度,因此它们永远不会是负面的。逻辑回归中的系数可以告诉您关系的强度和方向或性质(正或负)。随机森林中的高重要性也意味着预测变量和响应之间的强关系,但从基于树的模型得出的重要性列对性质或方向保持沉默。
希望这可以帮助。