虽然很明显可以根据重要性对特征进行排名,并且许多机器学习书籍都提供了随机森林的示例来说明如何这样做,但在哪些情况下应该这样做并不是很清楚。
特别是对于提升方法,有什么理由应该进行特征选择。提升方法本身不会消除低重要性特征吗?
添加更多功能并不总是更好(如果没有时间限制的实际问题)。
虽然很明显可以根据重要性对特征进行排名,并且许多机器学习书籍都提供了随机森林的示例来说明如何这样做,但在哪些情况下应该这样做并不是很清楚。
特别是对于提升方法,有什么理由应该进行特征选择。提升方法本身不会消除低重要性特征吗?
添加更多功能并不总是更好(如果没有时间限制的实际问题)。
提升和特征选择之间存在差异。理解原始的 boosting 算法或 bagging 算法已经被修改和增加了许多特征选择和/或数据采样(过度/向下/合成)以提高准确性是非常重要的。让我们谈谈 bagging 和 boosting 之间的区别:它们都是基于随机子空间的算法,不同之处在于 bagging 我们使用均匀分布并且所有样本具有相同的权重,在 boosting 中我们使用非均匀分布,在训练期间分布将被修改,困难样本将具有更高的概率。第二个区别是投票。bagging 是平均投票,boosting 是加权投票。
特征选择算法试图找到可以分离类的最佳特征集。但是没有明确考虑困难或简单的样本以及使用的训练算法是什么。在 boosting 中,算法选择误差最小的特征,误差是未分类样本的概率“权重”之和,由于困难样本具有较高的权重,选择的特征将是更好地区分难分类的特征样品。
FE(特征、数据)--> 特征集 Boosting(特征、数据、基学习器类型、初始分布、困难样本)--> 特征集