什么时候进行特征选择?

数据挖掘 机器学习 分类 特征选择 特征工程 数据工程
2022-03-09 01:50:31

我有一个数据集,其中有分类特征和数字特征,我必须对其执行 OneHotEncoding、Normalization 和特征选择。

我应该按什么顺序对我的数据执行这些步骤?

我是 DataScience 的新手,请用 Layman 的术语解释它背后的逻辑。

谢谢你。

2个回答
  • 一种热编码仅适用于分类特征
  • 归一化仅适用于数值特征

因此,这两个步骤可以按任何顺序完成,它们是独立的。

特征选择应使用模型使用的最终特征集完成,因此它必须是最后一步。

规范化仅对数值变量进行,One Hot Encoding 仅对分类变量进行。

我建议将您的数据拆分为 2 个数据框。一种用于数字特征,另一种仅包含分类特征。然后对各个数据集执行归一化和一次热编码。这样你就不会对订单感到困惑!

特征选择通常在编码和缩放之前完成。这样做是为了删除在编码/缩放时可能会消耗时间的冗余特征。编码时还可以减少数据集的维数。