问题:
我正在寻找为数据集找到集群的最佳方法,这些数据集的观测值密集地排列在一起。该数据集是基于运营指标的具有三个数值变量的零售商店。
我不知道如何为这样的示例创建模拟数据集。我有密集聚集的数据和异常值,但在 4k 观察下。
经营目标:
我们需要根据几个变量将数据集分成几组。
目标是缩小优先级更高的商店。稍后,我们将使用推理统计来确定所述操作指标的原因。通过包含的三个运营变量,根据优先级对商店进行细分是有意义的。
我尝试了两种不同类型的分区聚类方法、k 值和不同的变量,但都产生了糟糕的验证结果。这是我采取的步骤:
使用 2/3 变量进行聚类:
使用CRAN 中的包中的欧几里德距离
daisy()函数标准化菊花相异矩阵。cluster通过查看 SSE 图表
kmeans()函数为 k-means 选择 k。pamk()在 CRAN 的包中按功能选择 k 为 k-medoid,fpc以获得集群中最高的平均轮廓宽度 - 导致 0.23 的平均轮廓宽度。K-medoid 与CRAN 包中的pam()功能一起使用。cluster通过 dunn-index 选择聚类算法 - 最高聚类结果是 k-medoids 0.002。我
cluster-stats()在fpc.
使用所有三个变量进行聚类: - 与上述相同的过程。
结果: 使用两个变量的具有 2 个聚类的 K-medoids 代表了具有最高 dunn-indes 的算法。
概述: 在为每种聚类方法选择最佳聚类数并使用 dunn-index 比较最佳聚类数后,结果有重叠。
在密集聚类数据集上执行聚类分析的推荐方法是什么?我是否需要多次执行聚类才能进一步分割数据?
编辑:添加了散点图,显示具有 3 个变量的聚类
