数据挖掘 - （特征选择）基于 L2 和基于树的不同结果 - 吾爱随笔录

数据挖掘 scikit-学习特征选择

2022-02-27 20:18:57

我正在使用 Sklearn 进行特征选择：

目标变量是二进制类。训练集是标准化的。

当某个特征在随机森林估计器中显示显着重要性，但在逻辑回归中显示负系数时，我应该如何解释？

1个回答

逻辑回归中的负系数意味着预测变量和响应变量之间的负相关。

例如，模型中的价格可以是一个预测变量，并且与购买或不购买的二元响应变量产品有负相关。

并且逻辑回归中的负系数并不意味着关系强度低，它仅意味着预测变量的变化对响应变量有反向影响，如果系数是高度负的，则意味着特征非常重要并且它的微小变化会影响响应但方向相反.

特征重要性不会告诉您关系的性质或方向，而只会告诉您关系的强度，因此它们永远不会是负面的。逻辑回归中的系数可以告诉您关系的强度和方向或性质（正或负）。随机森林中的高重要性也意味着预测变量和响应之间的强关系，但从基于树的模型得出的重要性列对性质或方向保持沉默。

希望这可以帮助。

其它你可能感兴趣的问题