这可能是一个愚蠢的问题,但据我所知,多重共线性似乎是回归问题中唯一的问题,因此也是模型。
多重共线性在分类中也是一个问题吗?
数据挖掘
机器学习
分类
2022-03-05 06:49:59
2个回答
我一直在思考这个问题。似乎在机器学习中,多重共线性通常不是什么大问题,因为它不应该破坏预测能力。对于影响的估计,对于单个变量的系数来说,这是有问题的 - 因此,回归的问题。
这篇文章很好地总结了它https://stats.stackexchange.com/a/168631/197070。
多重共线性不会在预测能力方面造成问题,而是在可解释性方面造成问题。
有了这个逻辑,是的,它也会在分类模型中引起类似的问题。
LogisticsRegression,它与 LinearRegression 非常相似。所以我相信你可以很容易地理解这个模型的问题。
决策树
我将尝试解释决策树分类器
特征重要性的问题-
使用共线特征,此属性变得非常不可靠。
树可以选择任何共线特征来创建分割,因此当我添加重复的花瓣 L/W 作为特征并删除鸢尾花数据集上的萼片 L/W 时,
这两个特征会划分重要性份额,
例如 2 次运行的特征重要性
[PL_1: 0.01351351, PW_1: 0.93507842, PL_2: 0.05140807, PW_2: 0. ]
[PL_1: 0.05860548, PW_1: 0.52660473, PL_2: 0.0063161 , PW_2: 0.40847369]
如果您使用Permutation 方法来计算 Features Importance。
在这种情况下,更糟糕的是,
当您对任何共线特征进行置换时,模型将使用另一个特征来管理等效拆分,并且您不会观察到分数的任何下降。
因此,看起来这两个特征对模型的重要性都为零
其它你可能感兴趣的问题