我是数据分析领域的新手,没有很强的统计背景......
现在,我正在尝试过滤掉那些具有高相关性的数字列。暂时不打算用PCA之类的降维算法,因为我还在收集数据,列太多了,希望先去掉一些列,再把不同的数据源链接在一起。
使用 PCA 和机器学习模型将在链接这些数据源之后进行。
所以,在这个“之前”阶段,我正在尝试使用 R方法library caret,findCorrelation()但我找不到这种方法是如何工作的。
现在我的问题是,我应该在数据清理之后使用这种方法(例如,处理丢失的数据,异常值,数据不平衡)还是之前或之后都没有关系?