特征选择和 PCA

数据挖掘 机器学习 特征选择 相关性 主成分分析
2022-02-24 07:09:22

我有一个分类问题。我想将功能数量减少到 4 个(我有 30 个)。我想知道为什么当我首先使用基于相关性的特征选择(cfs)然后使用 pca 与仅使用 pca 相比(后者比第一个更差)时,我的分类结果会更好。还应该提到的是,第二种方法(仅 pca)中的数据丢失 0.2-variance cover:0.8- 而第一种方法是 0.4-variancecoverd:0.6!

先感谢您

3个回答

PCA 只是找到了表示相关数据的更紧凑的方法。PCA 没有明确压缩数据以更好地解释目标变量。在某些情况下,您的大部分输入可能彼此相关,但与您的目标变量的相关性很小。这可能就是你的情况。

考虑一个玩具示例。假设我想预测股价。假设我有四个预测变量:

  1. 同比收益增长(相关)
  2. 下雨的百分比(无关)
  3. 湿度(无关)
  4. 温度(无关)

如果我将 PCA 应用于该数据集,则第一个主成分将与天气有关,因为 75% 的预测变量与天气有关。这个主要成分是否相关?它不是。

您强调的两个选项归结为使用或不使用 CFS。使用 CFS 的选项效果更好,因为它明确选择与目标变量相关的变量。

如果您有分类问题,您应该使用 LDA 而不是 PCA。PCA 忽略类,而 LDA 是类感知的。

例如,如果您的数据是 2D 并且您在以下示例中使用 PCA,您将获得:

在此处输入图像描述

所以在 PCA 之前,这些类是完全线性可分的,但在 PCA 之后,它们根本不可分。我并不是说你的情况会发生这种情况,但它可能会发生。

应该从 PCA 中删除相关变量,因为这些变量加在一起往往会夸大它们所表达的效果。CFS 选择不相关的变量子集。