PCA 之后的聚类:使用标准化数据,还是考虑在每台 PC 上解释的变化?

数据挖掘 聚类 k-均值 主成分分析
2022-03-07 12:59:37

我对聚类每日网格数据感兴趣。

由于维度(网格点)很多,我首先执行 PCA 以降低维度并保留占实际数据变化至少 85% 的 n-first PC。然后我使用这 n 个 PC 作为 k-Means 聚类的输入。

我的问题是我是否应该使用标准化(mean=0,std=1)PC 作为 k_Means 聚类的输入,或者根据每台 PC 占总变化的百分比调整 PC。调整可以是 PC[i] * Variation[i] /sum(Variation)

第一个选项导致 PC 具有相同的方差,因此聚类是无偏的。第二个选项最终会偏向于解释大部分变化的 PC。

根据我的理解,最好使用无偏见的数据。然而,在 PCA 的情况下,PC 默认具有不同的重要性。这是否支持使用调整后的 PC?

1个回答

我进行了更仔细的检查,我将尝试根据其他见解回答我的问题。对于所提供答案的准确性,我将不胜感激。

PC 的实际结果没有标准化,它们的方差与每台 PC 解释的总方差(变异)的平方根成正比。这些值是应该用于后续聚类的值。这样,PC 的权重确实与解释方差的(平方根)成正比。

如果使用标准化 PC(均值 = 0,标准 = 1),则应使用每个 PC 解释的方差百分比的平方根来调整值。这样,调整后的 PC 将与实际 PC 具有相同的权重,唯一的区别在于值的范围。

我基于 1) 实际 PC、2) 标准化 PC、3) 用方差百分比调整的标准化 PC 和 4) 用方差百分比的平方根调整的标准化 PC 运行聚类分析。1) 和 4) 实际上是相等的(我假设一些小的差异是由于值的范围影响非常接近 0 的实例)和最好的实例,其次是 3)。选项 2) 是迄今为止表现最差的。通过每个字段与原始数据集(每日网格数据)上分配的质心之间的平方距离之和来测试性能。