我有一个正在尝试聚类的数据集,并且我知道最多会有 N 个聚类(基于数据集所代表的事物的某些物理属性)。但是,可能只有 1 个集群。集群本身非常紧密,并且集群间隔非常大(至少集群间距离比集群内距离大一个数量级)。这是其他处理步骤的下游,所以我(有理由)相信极端异常值已被删除。N 通常为 1、2 或 4。对于这种情况,是否有众所周知的算法?
我考虑过使用 K-Means,运行它,并以某种方式选择最佳结果(也许是使集群间与集群内距离比率最大化的结果,或其他东西),但我提出的区分最佳运行的标准对我来说似乎都是临时的。
谢谢!