数据挖掘 - 使用什么标准来选择用于聚类的最佳内部验证？ - 吾爱随笔录

使用什么标准来选择用于聚类的最佳内部验证？

数据挖掘聚类 k-均值

2022-02-21 04:44:18

我正在做关于如何评估分层和分区聚类算法的作业。

为此，我有一个可以绘制的数据集，如您所见：

我使用的聚类算法是 K-Means、高斯混合和凝聚。

问题是我不知道使用哪些标准来选择 K-MEANS 的内部验证，例如，我读到轮廓更适合凸簇，但如果有任何组，我无法在图像中看到是或不是凸的。

我读过一些论文，例如：

但问题是我没有找到任何标准来选择 A 或 B 方法进行内部评估与事实，它们只是关于全部与全部的测试。

在哪里可以找到或找到什么标准来选择一种或另一种方法作为评估标准？

1个回答

没有包罗万象的指标可用于评估（内部或其他）实现的聚类。这就是为什么机器学习也是艺术。没有硬性限制，很多事情取决于应用程序、领域和数据本身。

TL;博士

作业的目的是让您熟悉聚类问题，但也没有明确的最佳方法或评估指标作为所有情况的灵丹妙药。

因此，您可以针对您的数据和算法结果尝试各种标准（参见下面的参考资料），并思考它们对您手头问题的有效性。

聚类的不可能定理

尽管聚类的研究围绕着一个直观的、引人注目的目标，但很难在技术层面上建立一个统一的推理框架，并且研究界存在大量多样化的聚类方法。在这里，我们以不可能定理的形式提出了一个关于难以找到这种统一的正式观点：对于一组三个简单属性，我们表明没有满足所有三个属性的聚类函数。这些属性的放宽暴露了一些在经过充分研究的聚类技术（例如单链接、对和、k-means 和 k-median）中工作中的一些有趣（和不可避免的）权衡。

维基百科对内部评估指标有一个很好的总结：

因此，内部评估措施最适合深入了解一种算法比另一种算法表现更好的情况，但这并不意味着一种算法比另一种算法产生更有效的结果。由这种指数衡量的有效性取决于数据集中存在这种结构的说法。如果数据集包含完全不同的模型集，或者评估衡量的是完全不同的标准，那么为某种模型设计的算法就没有机会。例如，k-means 聚类只能找到凸簇，许多评价指标假设凸簇。在具有非凸聚类的数据集上，使用 k-means 和假设凸性的评估标准都是不合理的。

存在十多种内部评估措施，通常基于直觉认为同一集群中的项目应该比不同集群中的项目更相似。例如，可以使用以下方法来评估基于内部标准的聚类算法的质量：

戴维斯-布尔丁指数

Davies-Bouldin 指数可以通过以下公式计算：

$D B = \frac{1}{n} \sum_{i = 1}^{n} max_{j \neq i} (\frac{σ_{i} + σ_{j}}{d (c_{i}, c_{j})})$ $DB={\frac {1}{n}}\sum _{i=1}^{n}\max _{j\neq i}\left({\frac {\sigma _{i}+\sigma _{j}}{d(c_{i},c_{j})}}\right)$

其中是簇的数量，是簇的质心，是簇中所有元素到质心的平均距离，和之间的距离。由于生成具有低聚类内距离（高聚类内相似性）和高聚类间距离（低聚类间相似性）的聚类的算法将具有较低的 Davies-Bouldin 指数，因此生成具有以下特征的聚类集合的聚类算法基于此标准，最小的 Davies-Bouldin 指数被认为是最佳算法。 $n$ $c_{x}$ $x$ $\sigma _{x}$ $x$ $c_{x}$ $d(c_{i},c_{j})$ $c_{i}$ $c_{j}$

邓恩指数

邓恩指数旨在识别密集且分离良好的集群。它被定义为最小簇间距离与最大簇内距离之间的比率。对于每个集群分区，可以通过以下公式计算 Dunn 指数：

$D = \frac{min_{1 \leq i < j \leq n} d (i, j)}{max_{1 \leq k \leq n} d^{'} (k)},$ $D={\frac {\min _{1\leq i<j\leq n}d(i,j)}{\max _{1\leq k\leq n}d^{\prime }(k)}}\,,$

其中和之间的距离，测量集群的集群内距离。两个集群之间的集群间距离可以是任意数量的距离度量，例如集群的质心之间的距离。类似地，可以以多种方式测量集群内距离，例如集群中任何一对元素之间的最大距离。由于内部标准寻找具有高聚类内相似性和低聚类间相似性的聚类，因此生成具有高 Dunn 指数的聚类的算法更可取。 $d(i,j)$ $i$ $j$ $d'(k)$ $k$ $d(i,j)$ $d'(k)$ $k$

轮廓系数

轮廓系数将同一簇中元素的平均距离与其他簇中元素的平均距离进行对比。具有高轮廓值的对象被认为是良好的聚类，具有低值的对象可能是异常值。该索引适用于 k-means 聚类，也可用于确定最佳聚类数。

此外：

衡量集群质量的标准评估

集群中的一个重要问题是如何根据集群的数量和这些集群的成员资格来确定给定数据集的最佳集群集。在本文中，我们制定了四个标准来衡量不同集群的质量。这些标准的设计使不同的标准更喜欢在不同粒度级别上泛化的集群集。我们评估这些标准对搜索引擎返回的结果的非层次聚类的适用性。我们还将这些标准选择的集群数量与一组人类受试者选择的集群数量进行了比较。我们的结果表明，我们的标准与人类受试者表现出的可变性相匹配，表明没有单一的完美标准。反而，

无监督学习算法的评估指标

确定通过聚类技术获得的结果的质量是无监督机器学习的关键问题。许多作者已经讨论了良好聚类算法的理想特征。然而，Jon Kleinberg 为聚类建立了一个不可能定理。因此，大量研究提出了根据聚类问题的特征和用于聚类数据的算法技术来评估聚类结果质量的技术。

了解内部聚类验证措施

聚类验证长期以来被认为是聚类应用程序成功的关键问题之一。一般来说，聚类验证可以分为两类，外部聚类验证和内部聚类验证。在本文中，我们专注于内部聚类验证，并详细研究了 11 种广泛使用的用于清晰聚类的内部聚类验证措施。从聚类的五个常规方面，我们研究了它们的验证特性。实验结果表明，这𝑆_𝐷𝑏𝑤是唯一一个在所有五个方面都表现良好的内部验证措施，而其他措施在不同的应用场景中存在一定的局限性。

其它你可能感兴趣的问题

上一篇人口稳定指数（PSI）下一篇pytorch 卷积，沿一维 0 步长