数据挖掘 - 聚类不产生偶数簇 - 吾爱随笔录

我正在使用 k-means 集群来运行在机器上的进程。

数据集样本：

machine name, process
m1,java
m2,tomcat
m1,word
m3,excel

建立一个相关计数矩阵：

   java,tomcat,word,excel
m1,1,0,1,0
m2,0,1,0,0
m3,0,0,0,1

然后我对这个数据集运行k-means（尝试了欧几里得和曼哈顿距离函数）数据集非常稀疏，我认为这导致生成的集群没有多大意义，因为许多机器被分组到同一个集群中（因为它们非常相似的）

如何实现每个集群包含大约相等数量的点的集群？或者，由于数据的稀疏性，这可能是不可能的，而是我应该尝试在数据集的不同属性上进行聚类？