这里列出了几种关于在 k 均值算法中查找 k 值的方法。当用于以无监督的方式找出 k 的值时,这些过程中的每一个有多少声音。
在 K-Means 算法中选择 K 的无监督方式
信息处理
算法
机器学习
聚类
无监督学习
k-均值
2022-02-10 07:03:39
1个回答
k-means 算法的基本思想是找到最小化集群内方差和最大化集群间平方和的集群。请注意,总方差是固定的,因此集群内方差的最小化等效于集群间平方和的最大化。基本上各种方法旨在实现这种最小化。
但是,k 均值中没有“正确”的 K 数或“最佳”方法。一个聚类可能在一个指标上优于另一个,但在另一个指标上更差。并且根据您自己的项目,有时一个集群可以工作,但有时却不行。
你最好试试这些方法,看看它们是否适合你的情况。如果您的数据不是高维的,您可以尝试核密度估计来观察峰值的数量。否则,最简单和启发式的方法是经验法则,那么我建议使用 Elbow 方法(当新生成的集群接近某些现有集群时,停止增加集群的数量)。
关于这个主题的stackoverflow和交叉验证有很多讨论,您可能也会感兴趣。
其它你可能感兴趣的问题