我对聚类每日网格数据感兴趣。
由于维度(网格点)很多,我首先执行 PCA 以降低维度并保留占实际数据变化至少 85% 的 n-first PC。然后我使用这 n 个 PC 作为 k-Means 聚类的输入。
我的问题是我是否应该使用标准化(mean=0,std=1)PC 作为 k_Means 聚类的输入,或者根据每台 PC 占总变化的百分比调整 PC。调整可以是 PC[i] * Variation[i] /sum(Variation)
第一个选项导致 PC 具有相同的方差,因此聚类是无偏的。第二个选项最终会偏向于解释大部分变化的 PC。
根据我的理解,最好使用无偏见的数据。然而,在 PCA 的情况下,PC 默认具有不同的重要性。这是否支持使用调整后的 PC?