数据挖掘 - PCA 之后的聚类：使用标准化数据，还是考虑在每台 PC 上解释的变化？ - 吾爱随笔录

PCA 之后的聚类：使用标准化数据，还是考虑在每台 PC 上解释的变化？

数据挖掘聚类 k-均值主成分分析

2022-03-07 12:59:37

我对聚类每日网格数据感兴趣。

由于维度（网格点）很多，我首先执行 PCA 以降低维度并保留占实际数据变化至少 85% 的 n-first PC。然后我使用这 n 个 PC 作为 k-Means 聚类的输入。

我的问题是我是否应该使用标准化（mean=0，std=1）PC 作为 k_Means 聚类的输入，或者根据每台 PC 占总变化的百分比调整 PC。调整可以是 PC[i] * Variation[i] /sum(Variation)

第一个选项导致 PC 具有相同的方差，因此聚类是无偏的。第二个选项最终会偏向于解释大部分变化的 PC。

根据我的理解，最好使用无偏见的数据。然而，在 PCA 的情况下，PC 默认具有不同的重要性。这是否支持使用调整后的 PC？

1个回答

我进行了更仔细的检查，我将尝试根据其他见解回答我的问题。对于所提供答案的准确性，我将不胜感激。

PC 的实际结果没有标准化，它们的方差与每台 PC 解释的总方差（变异）的平方根成正比。这些值是应该用于后续聚类的值。这样，PC 的权重确实与解释方差的（平方根）成正比。

如果使用标准化 PC（均值 = 0，标准 = 1），则应使用每个 PC 解释的方差百分比的平方根来调整值。这样，调整后的 PC 将与实际 PC 具有相同的权重，唯一的区别在于值的范围。

我基于 1) 实际 PC、2) 标准化 PC、3) 用方差百分比调整的标准化 PC 和 4) 用方差百分比的平方根调整的标准化 PC 运行聚类分析。1) 和 4) 实际上是相等的（我假设一些小的差异是由于值的范围影响非常接近 0 的实例）和最好的实例，其次是 3）。选项 2) 是迄今为止表现最差的。通过每个字段与原始数据集（每日网格数据）上分配的质心之间的平方距离之和来测试性能。

其它你可能感兴趣的问题

上一篇深度学习验证阶段的模型选择指标下一篇从第二个数据框列更新第一个数据框列