我正在使用 k-means 集群来运行在机器上的进程。
数据集样本:
machine name, process
m1,java
m2,tomcat
m1,word
m3,excel
建立一个相关计数矩阵:
java,tomcat,word,excel
m1,1,0,1,0
m2,0,1,0,0
m3,0,0,0,1
然后我对这个数据集运行k-means(尝试了欧几里得和曼哈顿距离函数)数据集非常稀疏,我认为这导致生成的集群没有多大意义,因为许多机器被分组到同一个集群中(因为它们非常相似的)
如何实现每个集群包含大约相等数量的点的集群?或者,由于数据的稀疏性,这可能是不可能的,而是我应该尝试在数据集的不同属性上进行聚类?