基于相关性的特征选择与特征工程

数据挖掘 神经网络 特征选择 决策树 特征工程 相关性
2022-02-25 01:18:50

我对特征选择优于特征工程的优越性感到有点困惑,反之亦然。

假设我只想在几个模型上获得最佳性能,例如神经网络、基于树的模型和朴素贝叶斯分类器。

在开始任何培训之前,我查看了我的功能并设计了一些额外的(希望是)更具表现力的功能。我是从领域专家的角度这样做的。例如,我添加了一个新的比率功能C = A / B,因为我认为这对于模型来说将是一个非常有表现力的信息。

此外,我添加了几个基本相同但方式不同的功能。假设一个特征D测量任何文本的长度,包括空行,另一个特征E测量任何文本的长度,不包括空行。

因此,这导致我的数据集中有很多特征,相关性/多重共线性也非常高。(当然DE是非常高度相关的AB并且C也是高度相关/多重共线的。

因此,任何类型的基于相关的特征选择(在特征之间)都会删除许多工程特征,但是这种删除是否可以为模型提供任何更好的判别能力而只需要更少的信息?什么对模型更有帮助,保留所有特征或删除相关特征?

1个回答

什么对模型更有帮助,保留所有特征或删除相关特征?

  • 关于它有一些理论,但最终机器学习是尝试和错误。您应该尝试使用所有功能,然后进行功能选择,看看您是否能够改进您的模型。适用于某些模型的东西不一定适用于其余模型。

如果您想选择哪些功能可以帮助您的模型,您可以这样做,而不是全部删除,从一个开始并添加功能,并且只保留它们以防它提高模型的性能。在某些情况下,您添加了一个特征并且模型的性能会下降。

我们可以想到的特征选择方法有很多,但是大多数特征选择方法可以分为三大类。从这个来源

  • 基于过滤器:我们指定一些指标并基于该过滤器功能。这种度量的一个例子可以是相关性/卡方。
  • Wrapper-based:Wrapper 方法将一组特征的选择视为搜索问题。示例:递归特征消除
  • 嵌入式:嵌入式方法使用具有内置特征选择方法的算法。例如,Lasso 和 RF 有自己的特征选择方法。