在使用 R findCorrelation() 之前清理数据会有所不同吗?

数据挖掘 r 相关性
2022-02-16 00:14:04

我是数据分析领域的新手,没有很强的统计背景......

现在,我正在尝试过滤掉那些具有高相关性的数字列。暂时不打算用PCA之类的降维算法,因为我还在收集数据,列太多了,希望先去掉一些列再把不同的数据源链接在一起。

使用 PCA 和机器学习模型将链接这些数据源之后进行。

所以,在这个“之前”阶段,我正在尝试使用 R方法library caretfindCorrelation()但我找不到这种方法是如何工作的。

现在我的问题是,我应该在数据清理之后使用这种方法(例如,处理丢失的数据,异常值,数据不平衡)还是之前或之后都没有关系

1个回答

在大多数情况下,您需要在清理后运行 findCorrelation。清理过程的原因是删除不需要的数据点(无论如何您认为它们无关紧要)或计算一些您希望 findCorrelation 了解的转换。

现在,也就是说,我经常运行它两次,一次是在清理之前,一次是在我的转换可以改变数据的相关结构之后。

幸运的是,由于您使用的是插入符号,因此可以简单地以两种方式估计您的模型,然后比较准确度的最终差异。不幸的是,ML 中许多问题的正确答案是“双向做,然后比较”