在 PCA 坐标中绘制聚类结果时,是先进行 PCA 还是聚类?

机器算法验证 r 聚类 主成分分析
2022-03-28 04:43:53

最近我遇到了聚类图的用法,它结合了 k-mean 聚类和 PCA。该图显示了使用前两台 PC 绘制的不同集群。我已经检查了一些关于使用的线程(这里这里)。

我想知道,在生成聚类图期间,数据是先聚类然后进行 PCA,还是相反的方式(PCA 后跟 k-mean 聚类)?

因为第二个链接说 PCA 是在集群之后完成的。但是在第一个链接中,显示了一个生成聚类图的示例,首先对数据进行聚类,然后生成聚类图。

关于解释,是否必须将绘图解释为生成的集群数量,或者是否有任何额外的点需要解释?

1个回答

很难看出如何在集群上进行 PCA。在聚类之前进行 PCA 是很常见的,特别是当你有很多变量时。然后,您可以将 PC 用作变量。

您可能会对不同的两种选择感到困惑:

1) 对数据进行 PCA,然后在 PC 上进行 k-means,然后绘制结果

2)对数据进行k-means,对数据进行PCA,然后根据PC上的均值绘制集群。

这两个对我来说似乎都是合理的。当有很多变量或数据上的 k-means 没有产生任何有用的东西时,第一个可能会更好。

前者压缩数据以便进行聚类分析。后者压缩数据以便可视化聚类分析。