数据挖掘 - k-means 聚类可以将贝壳作为聚类吗？ - 吾爱随笔录

k-means 聚类可以将贝壳作为聚类吗？

数据挖掘聚类 k-均值距离

2022-02-28 19:16:33

想象一下你有 $k$ 类。每节课 $i$ 具有遵循概率分布的点，使得它们到 0 的距离为 $i$ 均值，但这个距离服从正态分布。方向是均匀分布的。所以所有的类都在原点 0 附近的 shell 中。

能 $k$ -意味着当您选择“正确”距离度量时获得这些外壳？（如果你采用欧几里德度量，显然它找不到它，但我想知道是否有任何度量，或者这个问题是否天生无法解决 $k$ -意思是，即使你知道集群的数量 $k$ )

1个回答

您不能仅将任意距离函数与 k-means 一起使用。

因为该算法不是基于度量属性而是基于方差。

https://stats.stackexchange.com/q/81481/7828

事实是 k-means 最小化了平方和。这甚至没有给你“最小的距离”，而只是最小的平方距离。这是不一样的（请参阅：中位数和均值之间的差异） - 如果您想最小化欧几里德距离，请使用 k 中位数或者如果您想要其他距离 PAM（k-medoids）。

您可以推广 k-means 以使用更多称为“Bergman 散度”的距离，并且您可以做一些内核技巧的变体。但这不是很强大，因为您没有用于优化内核参数的标签！尽管如此，这可能是这个练习问题的目的......如果你的“壳”确实以0为中心，那么你可以将你的数据（阅读：内核技巧做错了）转换为与原点的角度+距离，以及k-手段可能能够对投影数据进行聚类（取决于未明确定义的轴缩放比例）。或者教科书没有意识到很久以前就提出了内核k-means。那么论证大概是这样的：每个壳的均值是0，因此壳不能被区分。这显然适用于未修改的k-均值。

其它你可能感兴趣的问题

上一篇将相似图像聚类到文件夹中下一篇根据预定义的向量删除单词