我正在为句子嵌入进行 KMeans 聚类,我的问题是聚类的数量。一般来说,特征大小是几百个数量级(在本例中为 768),我担心的是空间的稀疏性。我尝试使用gap statistic,但它只是单调增加并且没有最大值(我最终得到了最大 2048 个集群)。此外,嵌入位于 n 维球体上,而不是均匀地填充空间。我的问题是:当特征空间很大时,使用各种“聚类指标”来确定最佳聚类数量真的有意义吗?
确定高维集群的数量
数据挖掘
nlp
聚类
2022-02-27 12:50:55
1个回答
没有正确的方法来解决这个问题。一种常见的方法是您正在做的事情,即检查的各种值并启发式告诉我最佳值。一些这样的方法是您正在使用的肘部、轮廓和间隙统计。通过这种方法确定簇的数量是完全有效的;事实上,这就是他们的目的。
另一种方法是尝试对数据进行层次聚类,看看哪个级别导致方差的最大差异。