主成分分析

数据挖掘 scikit-学习 主成分分析
2022-02-27 20:52:13

我有一个如下所示的数据集:

 Time        V1     V2    V3     ...    V40
13:00        0.44   0     0.33          0.55
13:01        0.55   0     0.34          0.52
13:02        0.58   1     0.20          0.58
.
.
.
15:01        0.57   0     0.24          0.70

其中 V2 是开/关开关的二进制等效项。目前,我仍在预处理我的数据并使用sklearn.preprocessing. 我想知道对我的数据集应用降维/PCA 是否会影响我的模型的结果,以及是否建议使用它来处理我的数据。

2个回答

我想知道对我的数据集应用降维/PCA 是否会影响我的模型的结果,以及是否建议使用它来处理我的数据。

简而言之 - 你不知道。您需要进行实验,以检查降低维度是否有助于您的模型更好地执行。您可以先验地陈述一些小事一般来说,要观察维度诅咒,40 个特征并不多。您显然需要做的一项是检查您的功能相关性并检查是否有任何功能损坏您的输出。

如果您有多维数据,则很难可视化。PCA 通过在前 K 个特征中保持最大协方差来帮助我们减少数据集的维度。因此,PCA 将帮助我们在大多数情况下呈现数据。

所以如果你执行 PCA,你肯定会丢失一些数据,创建一个数据较少的模型,肯定会影响模型的结果。