聚类不产生偶数簇

数据挖掘 聚类 k-均值
2022-02-09 13:28:28

我正在使用 k-means 集群来运行在机器上的进程。

数据集样本:

machine name, process
m1,java
m2,tomcat
m1,word
m3,excel

建立一个相关计数矩阵:

   java,tomcat,word,excel
m1,1,0,1,0
m2,0,1,0,0
m3,0,0,0,1

然后我对这个数据集运行k-means(尝试了欧几里得和曼哈顿距离函数)数据集非常稀疏,我认为这导致生成的集群没有多大意义,因为许多机器被分组到同一个集群中(因为它们非常相似的)

如何实现每个集群包含大约相等数量的点的集群?或者,由于数据的稀疏性,这可能是不可能的,而是我应该尝试在数据集的不同属性上进行聚类?

1个回答

聚类分析不应该产生相同大小的分区。它旨在发现数据中的结构。

如果大多数对象高度相似,那么这个多数应该在多数集群中。

考虑您的所有数据都是相同的。在我看来,任何产生多个集群的聚类算法都失败了......

因此,您可能为您的问题使用了错误的算法类别。