如果你的“肘部曲线”看起来像这样,这意味着什么?

数据挖掘 机器学习 k-均值
2022-02-26 22:46:38

在此处输入图像描述

这是来自在 x 轴(范围从 2 到 10)和 y 轴上的轮廓距离上运行 kmeans 聚类。

显然,在 k=3、k=4 处有峰值,并且似乎从那里开始下降。它不像肘部,并且认为它应该随着 k 变大而上升(由于过度拟合他的训练集)。我只是缺少数据吗?

我正在使用 80-20 列车测试分割计算轮廓距离。

1个回答

首先,你确实有两个肘部:一个在k=4和一个大的k=8. 第二个不是很明显,因为您还没有绘制出较大值的图k. 如果你这样做,你可能会得到这样的数字:

其次,在计算轮廓分数时,您应该寻找肘部!轮廓分数考虑了集群间和集群内的距离,因此它可以用于选择k自己(即选择k产生最佳轮廓分数)。

注意:我不熟悉“剪影距离”,我认为它与剪影分数有些相关(可能是它的倒数)。

在处理趋于改善的指标时,应使用“肘部”标准k增加(例如惯性)。