k-means 聚类可以将贝壳作为聚类吗?

数据挖掘 聚类 k-均值 距离
2022-02-28 19:16:33

想象一下你有k类。每节课i具有遵循概率分布的点,使得它们到 0 的距离为i均值,但这个距离服从正态分布。方向是均匀分布的。所以所有的类都在原点 0 附近的 shell 中。

k-意味着当您选择“正确”距离度量时获得这些外壳?(如果你采用欧几里德度量,显然它找不到它,但我想知道是否有任何度量,或者这个问题是否天生无法解决k-意思是,即使你知道集群的数量k)

1个回答

您不能仅将任意距离函数与 k-means 一起使用。

因为该算法不是基于度量属性而是基于方差

https://stats.stackexchange.com/q/81481/7828

事实是 k-means 最小化了平方和这甚至没有给你“最小的距离”,而只是最小的平方距离。这是一样的(请参阅:中位数和均值之间的差异) - 如果您想最小化欧几里德距离,请使用 k 中位数或者如果您想要其他距离 PAM(k-medoids)。

您可以推广 k-means 以使用更多称为“Bergman 散度”的距离,并且您可以做一些内核技巧的变体。但这不是很强大,因为您没有用于优化内核参数的标签!尽管如此,这可能是这个练习问题的目的......如果你的“壳”确实以0为中心,那么你可以将你的数据(阅读:内核技巧做错了)转换为与原点的角度+距离,以及k-手段可能能够对投影数据进行聚类(取决于未明确定义的轴缩放比例)。或者教科书没有意识到很久以前就提出了内核k-means。那么论证大概是这样的:每个壳的均值是0,因此壳不能被区分这显然适用于未修改的k-均值。