解释 PCA 的标准差

机器算法验证 r 主成分分析 标准差 降维
2022-04-12 17:56:24

我正在使用 r 在我的数据集上运行 PCA,并且需要一些帮助来解释标准偏差结果。

这是结果

> summary(wine1.pca)
Importance of components:
                          PC1    PC2    PC3     PC4     PC5     PC6     PC7    PC8     PC9    PC10    PC11    PC12
Standard deviation     1.7440 1.6278 1.2812 1.03373 0.91682 0.81266 0.75088 0.7183 0.67710 0.54683 0.47704 0.18111
Proportion of Variance 0.2535 0.2208 0.1368 0.08905 0.07005 0.05503 0.04698 0.0430 0.03821 0.02492 0.01896 0.00273
Cumulative Proportion  0.2535 0.4743 0.6111 0.70011 0.77016 0.82520 0.87218 0.9152 0.95338 0.97830 0.99727 1.00000

从我所读到的内容中,最好选择能够解释 85% 或更多变化的组件数量。

问题

  • 执行 PCA 时,类变量是否应该是数据帧的一部分?

  • 我如何从这些结果中找出有多少分量会产生 85% 或更大的方差?是不是PC5因为标准差是 0.91,然后下降PC6到 0.81?

在此处输入图像描述

1个回答

根据您的输入,您应该使用“累积比例”字段作为要保留多少主成分的指导。您定义方差百分比,然后选择累积计算您希望保留的方差的列(这也是该主成分的数量)。对于您的示例中 85% 和更多的方差,您需要保留 7 个主成分。

关于添加的情节,阅读它可能会更加棘手。为了按照上一段中的描述进行操作,当您有一定的百分比要保留时,您将首先积分然后读取所需组件的值。实际上你已经有了这个信息,这是同一个“累积比例”字段。只需绘制它,您就会看到。

最后关于将类变量(不)包含到要使用 PCA 分析的数据集中。您的意图是分析给定一些测量值的数据集,而不是类标签。类标签是一些附加信息(通常是后验)。您不希望它与数据集一起分析。如果数据集还包含类变量,则很难解释最大方差方向。