对集群内 SSE 价值的困惑

数据挖掘 机器学习 聚类 数据挖掘 无监督学习 k-均值
2022-03-12 20:22:20

我有一个 shape 数据集(29088, 11)当我在 K=2 处应用 Kmeans 时,我得到以下图:

在此处输入图像描述

我很惊讶 C0 的 Sum Squared Error (SSE) 的值(蓝色)小于 C1 的 SSE 的值(红色)。不应该像图中所示的相反,蓝点被扭曲,这意味着 SSE 的值应该更大?

注:C0 有 8554 点(蓝色),而 C1 有 20534 点(红色)

1个回答

我相信C1簇中的元素数量比C0多。你能检查一次吗?

C0 有 8554 个样本,因此平均 SSE 变为28101.18544=3.28. 而 C1 包含 20534 个点,平均 SSE 为47725.520534=2.324.

这意味着 C1 集群包含更多,它具有非常高的 SSE,因为它包含 C0 中存在的点的 2 倍以上。