应该在哪个阶段进行相关性分析?

数据挖掘 特征选择 相关性
2022-02-28 18:14:35

我想了想,但找不到合乎逻辑的解释。

数据准备就绪后,我主要遵循以下步骤:

  • 相关性分析和消除
  • 如果存在分类变量,则应用虚拟变量
  • 如果数据不平衡,则平衡数据
  • 规模数据
  • 特征选择(向后、逐步等)
  • 训练模型

我所遵循的这条路径将在哪里应用相关性分析会更有意义?数据平衡后?缩放后?还是一开始?

1个回答

相关性是一种双变量特征分析技术。

通常,这是在单变量特征分析之后完成的。但在任何特征工程之前。

大多数机器学习都是迭代的,因此可以在任何阶段重新审视相关性。