在使用高斯混合模型之前进行特征缩放是否重要?

机器算法验证 机器学习 聚类 高斯混合分布
2022-03-21 12:37:50

在使用高斯混合模型之前进行特征缩放是否重要?以及为什么在我们使用概率来获取集群的参数(均值和协方差矩阵)时它很重要。另一方面,我知道在使用 K-mean 作为聚类之前标准化我们的数据很重要,这取决于点和聚类之间的 Ecludiane 距离,如果一个特征具有较大的值,它将主导这个多维距离计算

1个回答

我将假设您的意思是,当您说“使用高斯混合模型”时,您的意思是将(可能是多元的)高斯混合拟合到某些数据中,以进行聚类。

在这种情况下,如果您使用最大似然作为拟合模型的条件,则无需缩放数据。如果一个变量的方差高于另一个变量,您的优化程序将能够学习这一点并相应地拟合您的方差(或多变量情况下的协方差矩阵)。

只有当您包含先验(并因此进行后验最大化)时,您的数据规模才会很重要。

要回答为什么它在 KMeans 而不是高斯混合模型中很重要,最容易用软 KMeans 算法来解释,KMeans 本身就是一个限制情况。软 KMeans 算法与高斯混合建模相同,如果您假设所有集群都是由具有相同方差(并且没有协方差,所有特征都是独立的)的高斯生成的。出于这个原因,强制所有特征确实具有相同的方差是有意义的(但您不需要将它们居中,因​​为 KMeans 允许分布具有不同的质心,它会学习它们)。

高斯混合建模明确放宽了所有集群具有相同方差的假设以及集群内特征不相关的假设,这就是您不需要标准化特征的原因。

需要明确的是,使用高斯混合模型的真正优势在于您的集群不必是超球形且具有相同的半径。您也不必标准化变量这一事实只是一个不错的奖励