K 表示用 PCA 降维后的可视化

数据挖掘 机器学习 聚类 主成分分析 降维
2022-03-16 21:26:47

在聚类(ķ意味着,例如)当我有ñ特征和创建模型后(用这个ñ特征)可视化这个模型我需要减少这个ñ尺寸成2或者3尺寸,假设我将使用(PCA)来举例。

我的问题是如何分析结果(带主成分的葡萄)?

这是一个简单的例子:

不减数据:AGE,GENDER,SPENT,SALARY,CAR,.....

降维后的数据:

主成分1, 主成分2, 主成分 3

PC1,PC2,PC3是什么意思

3个回答

K-means 最小化平方和误差,而 PCA 找到具有最大平方和的投影。所以他们是很自然的搭配。

只需运行 k-means 并将其投影到 2d 以使用 PCA 进行可视化。他们在很大程度上以与 k-means 相同的方式查看数据(如果您只使用旋转,而不是缩放!)

我更关心的是输入数据,因为它既不适合 k-means 也不适合 PCA。因此,如果结果几乎无法解释,我不会感到惊讶。如果输入变量是连续的并且具有相同的规模,这两种方法最有意义。

主成分是相互正交的方向,第一个3组件应具有最大的差异。

为了获得它们,您将数据投影到3协方差矩阵的前导特征向量。

然后你可以执行ķ- 表示在投影数据上并用不同的颜色为每个组着色,以方便可视化。

主成分是您的特征在 3 个方向上的投影结果,这些方向带有很大的方差和最小的信息丢失(例如,当您进行投影并将其从 3-D 减少到 2-D 时,您会丢失一点信息)。换句话说,您可以说 PC 1、PC 2 和 PC 3 在某种程度上是您用于 PCA 的所有功能的组合。