jenks 自然休息 vs k-means

机器算法验证 聚类 k-均值
2022-03-30 20:34:39

我是这个话题的新手。据我所知,两者都是数据聚类方法。那么我的问题是 Jenks 什么时候比 k-means 更受欢迎?

我在这个网站上读到,jenks 特别适用于一维数据,而 k-means 则适用于多维数据。这是真的?如果是这样,你能给我指出一些关于这个的参考吗?

我还从另一个来源读到,说 jenks 通常用于发现范围数据中的空白。我再次找不到解释这一点的参考。

任何使用 Jenks 自然中断甚至将其与 k-means 进行比较的特定工作的任何指针都会很棒。

2个回答

Jenks 自然间断算法,就像 K-means 一样,将数据分配给 K 个组之一,从而使组内距离最小化。就像 K-means 一样,必须在运行算法之前选择 K。

然而,Jenks 和 K-means 的不同之处在于它们如何在组距离内最小化。Jenks 利用了一维数据是可排序的这一事实,这使其成为一种更快的一维数据算法。K-means更通用,可以处理任意维度的数据;包括大于 1 的维度,其中数据不可排序。

以前的答案基本上将 Jenks 视为 K-means 的一个特例。然而,这个来源有一个重要的区别:K-means 仅“搜索数据点与其所属的集群中心之间的最小距离”。Jenks 以此为目标,并为集群中心之间的接近度增加了惩罚,因此它还搜索“集群中心本身之间的最大差异”。

逻辑是,即使两个集群内部非常紧凑,当它们的中心非常接近时,它们也可能难以区分。

因此,对于n数据点和k簇,K-means 将最小化C

C=i=1nj=1kdist(di,cj)

在哪里di是数据点的值,并且cj是其关联聚类中心的值。

相比之下,詹克斯算法将最小化J

J=Cj=1k1dist(cj+1,cj)

不过有两点需要注意:

  • 我真的不是聚类算法方面的专家,所以欢迎确认、评论、更正和编辑。
  • 我引用的消息来源指出dist()计算欧几里得距离(所以,(dicj)2),但从我在 K-means 上读到的所有其他内容看来,平方欧几里得距离 ((dicj)2) 是实际最小化的。

完整参考:

汗,F.(2012 年)。用于地理参考数据的 k 均值聚类的初始种子选择算法,以提高地图应用的聚类分配的可复制性。应用软计算杂志,12(11),3698–3700。https://doi.org/10.1016/j.asoc.2012.07.021