机器算法验证 - jenks 自然休息 vs k-means - 吾爱随笔录

机器算法验证聚类 k-均值

2022-03-30 20:34:39

我是这个话题的新手。据我所知，两者都是数据聚类方法。那么我的问题是 Jenks 什么时候比 k-means 更受欢迎？

我在这个网站上读到，jenks 特别适用于一维数据，而 k-means 则适用于多维数据。这是真的？如果是这样，你能给我指出一些关于这个的参考吗？

我还从另一个来源读到，说 jenks 通常用于发现范围数据中的空白。我再次找不到解释这一点的参考。

任何使用 Jenks 自然中断甚至将其与 k-means 进行比较的特定工作的任何指针都会很棒。

2个回答

Jenks 自然间断算法，就像 K-means 一样，将数据分配给 K 个组之一，从而使组内距离最小化。就像 K-means 一样，必须在运行算法之前选择 K。

然而，Jenks 和 K-means 的不同之处在于它们如何在组距离内最小化。Jenks 利用了一维数据是可排序的这一事实，这使其成为一种更快的一维数据算法。K-means更通用，可以处理任意维度的数据；包括大于 1 的维度，其中数据不可排序。

以前的答案基本上将 Jenks 视为 K-means 的一个特例。然而，这个来源有一个重要的区别：K-means 仅“搜索数据点与其所属的集群中心之间的最小距离”。Jenks 以此为目标，并为集群中心之间的接近度增加了惩罚，因此它还搜索“集群中心本身之间的最大差异”。

逻辑是，即使两个集群内部非常紧凑，当它们的中心非常接近时，它们也可能难以区分。

因此，对于 $n$ 数据点和 $k$ 簇，K-means 将最小化 $C$ ：

C = \sum_{i = 1}^{n} \sum_{j = 1}^{k} d i s t (d_{i}, c_{j})

$C = \sum_{i=1}^n \sum_{j=1}^k dist(d_i, c_j)$

在哪里 $d_i$ 是数据点的值，并且 $c_j$ 是其关联聚类中心的值。

相比之下，詹克斯算法将最小化 $J$ ：

J = C - \sum_{j = 1}^{k - 1} d i s t (c_{j + 1}, c_{j})

$J = C - \sum_{j=1}^{k-1} dist(c_{j+1}, c_j)$

不过有两点需要注意：

我真的不是聚类算法方面的专家，所以欢迎确认、评论、更正和编辑。
我引用的消息来源指出 $dist()$ 计算欧几里得距离（所以， $\sqrt{(d_i - c_j)^2}$ )，但从我在 K-means 上读到的所有其他内容看来，平方欧几里得距离 ( $(d_i - c_j)^2$ ) 是实际最小化的。

完整参考：

汗，F.（2012 年）。用于地理参考数据的 k 均值聚类的初始种子选择算法，以提高地图应用的聚类分配的可复制性。应用软计算杂志，12(11)，3698–3700。https://doi.org/10.1016/j.asoc.2012.07.021

其它你可能感兴趣的问题