我有一个数据集,其中有分类特征和数字特征,我必须对其执行 OneHotEncoding、Normalization 和特征选择。
我应该按什么顺序对我的数据执行这些步骤?
我是 DataScience 的新手,请用 Layman 的术语解释它背后的逻辑。
谢谢你。
我有一个数据集,其中有分类特征和数字特征,我必须对其执行 OneHotEncoding、Normalization 和特征选择。
我应该按什么顺序对我的数据执行这些步骤?
我是 DataScience 的新手,请用 Layman 的术语解释它背后的逻辑。
谢谢你。
因此,这两个步骤可以按任何顺序完成,它们是独立的。
特征选择应使用模型使用的最终特征集完成,因此它必须是最后一步。
规范化仅对数值变量进行,One Hot Encoding 仅对分类变量进行。
我建议将您的数据拆分为 2 个数据框。一种用于数字特征,另一种仅包含分类特征。然后对各个数据集执行归一化和一次热编码。这样你就不会对订单感到困惑!
特征选择通常在编码和缩放之前完成。这样做是为了删除在编码/缩放时可能会消耗时间的冗余特征。编码时还可以减少数据集的维数。