数据挖掘 - 特征选择对提升方法的重要性 - 吾爱随笔录

特征选择对提升方法的重要性

数据挖掘特征选择特征提取 xgboost

2021-10-02 04:20:49

虽然很明显可以根据重要性对特征进行排名，并且许多机器学习书籍都提供了随机森林的示例来说明如何这样做，但在哪些情况下应该这样做并不是很清楚。

特别是对于提升方法，有什么理由应该进行特征选择。提升方法本身不会消除低重要性特征吗？

添加更多功能并不总是更好（如果没有时间限制的实际问题）。

1个回答

提升和特征选择之间存在差异。理解原始的 boosting 算法或 bagging 算法已经被修改和增加了许多特征选择和/或数据采样（过度/向下/合成）以提高准确性是非常重要的。让我们谈谈 bagging 和 boosting 之间的区别：它们都是基于随机子空间的算法，不同之处在于 bagging 我们使用均匀分布并且所有样本具有相同的权重，在 boosting 中我们使用非均匀分布，在训练期间分布将被修改，困难样本将具有更高的概率。第二个区别是投票。bagging 是平均投票，boosting 是加权投票。

特征选择算法试图找到可以分离类的最佳特征集。但是没有明确考虑困难或简单的样本以及使用的训练算法是什么。在 boosting 中，算法选择误差最小的特征，误差是未分类样本的概率“权重”之和，由于困难样本具有较高的权重，选择的特征将是更好地区分难分类的特征样品。

FE（特征、数据）--> 特征集 Boosting（特征、数据、基学习器类型、初始分布、困难样本）--> 特征集

其它你可能感兴趣的问题

上一篇Google TPU：何时/如何提供给我？下一篇在 word2vec 中使用多个文档