我想了想,但找不到合乎逻辑的解释。
数据准备就绪后,我主要遵循以下步骤:
- 相关性分析和消除
- 如果存在分类变量,则应用虚拟变量
- 如果数据不平衡,则平衡数据
- 规模数据
- 特征选择(向后、逐步等)
- 训练模型
我所遵循的这条路径将在哪里应用相关性分析会更有意义?数据平衡后?缩放后?还是一开始?
我想了想,但找不到合乎逻辑的解释。
数据准备就绪后,我主要遵循以下步骤:
我所遵循的这条路径将在哪里应用相关性分析会更有意义?数据平衡后?缩放后?还是一开始?
相关性是一种双变量特征分析技术。
通常,这是在单变量特征分析之后完成的。但在任何特征工程之前。
大多数机器学习都是迭代的,因此可以在任何阶段重新审视相关性。