我是这个话题的新手。据我所知,两者都是数据聚类方法。那么我的问题是 Jenks 什么时候比 k-means 更受欢迎?
我在这个网站上读到,jenks 特别适用于一维数据,而 k-means 则适用于多维数据。这是真的?如果是这样,你能给我指出一些关于这个的参考吗?
我还从另一个来源读到,说 jenks 通常用于发现范围数据中的空白。我再次找不到解释这一点的参考。
任何使用 Jenks 自然中断甚至将其与 k-means 进行比较的特定工作的任何指针都会很棒。
我是这个话题的新手。据我所知,两者都是数据聚类方法。那么我的问题是 Jenks 什么时候比 k-means 更受欢迎?
我在这个网站上读到,jenks 特别适用于一维数据,而 k-means 则适用于多维数据。这是真的?如果是这样,你能给我指出一些关于这个的参考吗?
我还从另一个来源读到,说 jenks 通常用于发现范围数据中的空白。我再次找不到解释这一点的参考。
任何使用 Jenks 自然中断甚至将其与 k-means 进行比较的特定工作的任何指针都会很棒。
Jenks 自然间断算法,就像 K-means 一样,将数据分配给 K 个组之一,从而使组内距离最小化。就像 K-means 一样,必须在运行算法之前选择 K。
然而,Jenks 和 K-means 的不同之处在于它们如何在组距离内最小化。Jenks 利用了一维数据是可排序的这一事实,这使其成为一种更快的一维数据算法。K-means更通用,可以处理任意维度的数据;包括大于 1 的维度,其中数据不可排序。
以前的答案基本上将 Jenks 视为 K-means 的一个特例。然而,这个来源有一个重要的区别:K-means 仅“搜索数据点与其所属的集群中心之间的最小距离”。Jenks 以此为目标,并为集群中心之间的接近度增加了惩罚,因此它还搜索“集群中心本身之间的最大差异”。
逻辑是,即使两个集群内部非常紧凑,当它们的中心非常接近时,它们也可能难以区分。
因此,对于数据点和簇,K-means 将最小化:
在哪里是数据点的值,并且是其关联聚类中心的值。
相比之下,詹克斯算法将最小化:
不过有两点需要注意:
完整参考:
汗,F.(2012 年)。用于地理参考数据的 k 均值聚类的初始种子选择算法,以提高地图应用的聚类分配的可复制性。应用软计算杂志,12(11),3698–3700。https://doi.org/10.1016/j.asoc.2012.07.021