我有一个分类问题。我想将功能数量减少到 4 个(我有 30 个)。我想知道为什么当我首先使用基于相关性的特征选择(cfs)然后使用 pca 与仅使用 pca 相比(后者比第一个更差)时,我的分类结果会更好。还应该提到的是,第二种方法(仅 pca)中的数据丢失 0.2-variance cover:0.8- 而第一种方法是 0.4-variancecoverd:0.6!
先感谢您
我有一个分类问题。我想将功能数量减少到 4 个(我有 30 个)。我想知道为什么当我首先使用基于相关性的特征选择(cfs)然后使用 pca 与仅使用 pca 相比(后者比第一个更差)时,我的分类结果会更好。还应该提到的是,第二种方法(仅 pca)中的数据丢失 0.2-variance cover:0.8- 而第一种方法是 0.4-variancecoverd:0.6!
先感谢您
PCA 只是找到了表示相关数据的更紧凑的方法。PCA 没有明确压缩数据以更好地解释目标变量。在某些情况下,您的大部分输入可能彼此相关,但与您的目标变量的相关性很小。这可能就是你的情况。
考虑一个玩具示例。假设我想预测股价。假设我有四个预测变量:
如果我将 PCA 应用于该数据集,则第一个主成分将与天气有关,因为 75% 的预测变量与天气有关。这个主要成分是否相关?它不是。
您强调的两个选项归结为使用或不使用 CFS。使用 CFS 的选项效果更好,因为它明确选择与目标变量相关的变量。
应该从 PCA 中删除相关变量,因为这些变量加在一起往往会夸大它们所表达的效果。CFS 选择不相关的变量子集。