我正在使用大约 4000 个变量的数据集。我决定对数据进行主成分分析 (PCA),但我不太确定我应该在测试中包含多少合适的变量。
输入大量(例如 4000 个)变量会干扰 PCA 的准确性吗?据我从定义和进行 PCA 的方式可以理解,变量的数量应该无关紧要,但我不是 100% 确定,我找不到任何来源谈论变量数量对 PCA 的影响.
简单来说,我的问题是:我应该只将我拥有的所有变量都包含在 PCA 测试中,还是应该在进行 PCA 之前进行其他测试以减少变量数量?
我正在使用大约 4000 个变量的数据集。我决定对数据进行主成分分析 (PCA),但我不太确定我应该在测试中包含多少合适的变量。
输入大量(例如 4000 个)变量会干扰 PCA 的准确性吗?据我从定义和进行 PCA 的方式可以理解,变量的数量应该无关紧要,但我不是 100% 确定,我找不到任何来源谈论变量数量对 PCA 的影响.
简单来说,我的问题是:我应该只将我拥有的所有变量都包含在 PCA 测试中,还是应该在进行 PCA 之前进行其他测试以减少变量数量?
PCA 的主要应用之一是在有很多变量时降低维度。所以是的,你应该使用所有的变量。我经常将 PCA 应用于数以万计的变量(基因表达数据)并且效果很好。
可能发生的情况是,在分析 PCA 时,您必须研究的不仅仅是前两个或三个组件。通常,您想了解的因素不会导致大部分方差,例如,您会在第五个或第十个组件中看到很好的样本聚类(是的,我见过这样的案例)。