如何解释这个 PCA 双图?

机器算法验证 主成分分析 多元分析 双标图
2022-03-23 18:09:33

我是第一次进行 PCA 分析,难以解释结果。这是我的双图(由 Matlab 的函数pca和生成biplot,红点是 PC 分数,蓝线对应于特征向量;数据未标准化;前两台 PC 占我原始数据集总方差的约 98%): 在此处输入图像描述

我个人的解释是(如果我理解正确的话)所有变量(b1 到 b7)在 PC1 轴上都有正值,而 b5 和 b7 在 PC2 中是正值,而 b1 到 b4 是负值。

由于 PC1 中的所有变量都是正的,因此对系统约束最大的变量是 b5 和(然后)b7 和 b4(在 PC1 轴上)。

在 PC2 轴上,这两组变量对系统有相反的影响(由我猜测它的内在含义是什么)。

说到分数,他们聚集的很好,所以我认为他们对系统的反应都很一致,除了一些局外人。

我的问题:

  1. 蓝色矢量方向和分数位置之间是否存在联系?意思是,结束接近某些分数的变量向量是否与这些相同的分数有关?
  2. 如果数据被很好地聚类,我如何根据哪个变量对系统有主要(或次要)影响来解释 PCA 的结果?
1个回答

你的解释大部分是正确的。第一个 PC 占方差的大部分,第一个特征向量(主轴)具有所有正坐标。这可能意味着所有变量之间都呈正相关,而第一个PC代表了这个“共同因素”。第二台 PC(看起来它的方差小得多)对比b5其他b7所有内容。

蓝色矢量方向和分数位置之间是否存在联系?意思是,结束接近某些分数的变量向量是否与这些相同的分数有关?

这是一种看待它的方法。想象一下,您有一个具有原始坐标的数据点(1,0,0,),即只有一个变量等于1和其他为零。b1然后这个虚构的数据点将以 PC 分数作为向量的终点。其他向量也是如此。

话虽如此,由于原始 6D 空间投影到 2D 上,许多不同的点可以投影到同一个 2D 点,所以如果一个蓝色向量,例如b1在一个特定的红色点附近有一个端点,并不一定意味着这个数据点有坐标(1,0,0,).

我应该补充一点,当蓝线对应于特征向量并且 PC 分数未标准化时,上述情况仅适用于双标图的这种特定归一化。

如果数据被很好地聚类,我如何根据哪个变量对系统有主要(或次要)影响来解释 PCA 的结果?

我真的不明白这个问题。我不会将这些数据称为“聚集良好”,它看起来更像是一个单峰分布。在您的情况下,所有变量似乎都非常相似,彼此之间呈正相关,并且对 PC1/PC2 的贡献相似。