混合模型聚类的良好(2d)可视化

机器算法验证 聚类 数据可视化 模型 混合分布
2022-04-02 21:02:55

我有一个特定的问题,我很惊讶我没有在网上找到答案,我希望这里有人对我有一个好的建议。我正在处理一个大型数据集,我使用自定义集群密度将其聚类到特定组中。所以原始空间是相当异构的,具有大量的特征。在模型优化期间和之后,每个数据点的责任向量是将原始特征投影到 k 维(k = 聚类数)。每个这样的向量总和为 1,这使它们成为集群空间上的(离散)分布。使用这些软分配,我总是可以创建相应混淆矩阵的热图可视化(当我有分类标签时)。通常,这些分配非常尖锐,这意味着许多向量的形式为 (0,0,1,0,0...)

现在,我希望看到按责任矩阵中的信息分组的点的 (2d) 表示。这样,我可以在不知道实际标签的情况下可视化优化过程中的每个步骤。我的第一个想法是 PCA、MDS 和图形布局算法。然而,尽管热图表明了一个清晰的分组,但 PCA 看起来确实非常密集,点排列成直线。由于 MDS 和图表使用距离,我考虑计算责任向量之间的成对 Hellinger 或推土机距离,以应用任何 MDS 或图表布局算法。然而,到目前为止,MDS 并不成功。

以前有人做过这样的事情吗?理想情况下,我希望看到聚类过程的动画,因为数据点被组合在一起。

1个回答

尝试可视化方法,例如曲面图和其他高维数据可视化技术,在Chris Fraley、Adrian E的论文“mclust Version 4 for R: Normal Mixture Modeling for Model-Based Clustering, Classification, and Density Estimation”中进行了描述. Raftery、T. Brendan Murphy 和 Luca Scrucca ( http://www.stat.washington.edu/research/reports/2012/tr597.pdf )。具体来说,请检查第 8 节(第 35-43 页)并在第 35 页上绘制函数摘要。52.