我对特征选择优于特征工程的优越性感到有点困惑,反之亦然。
假设我只想在几个模型上获得最佳性能,例如神经网络、基于树的模型和朴素贝叶斯分类器。
在开始任何培训之前,我查看了我的功能并设计了一些额外的(希望是)更具表现力的功能。我是从领域专家的角度这样做的。例如,我添加了一个新的比率功能C = A / B,因为我认为这对于模型来说将是一个非常有表现力的信息。
此外,我添加了几个基本相同但方式不同的功能。假设一个特征D测量任何文本的长度,包括空行,另一个特征E测量任何文本的长度,不包括空行。
因此,这导致我的数据集中有很多特征,相关性/多重共线性也非常高。(当然D和E是非常高度相关的A,B并且C也是高度相关/多重共线的。
因此,任何类型的基于相关的特征选择(在特征之间)都会删除许多工程特征,但是这种删除是否可以为模型提供任何更好的判别能力而只需要更少的信息?什么对模型更有帮助,保留所有特征或删除相关特征?