将新项目分配给现有的基于相似性的聚类

数据挖掘 聚类 相似 在线学习
2022-03-14 19:58:40

给定从项目之间的相似性度量创建的一些集群,是否有推荐的方法仅基于相似性将新项目分配给现有集群?(即避免重新聚类)

测量一个新项目与所有其他项目的相似性相当便宜,所以我正在寻找一种方法来使用它来将它分配给它最有可能属于的集群。将集群大小考虑在内也很重要(即不会不公平地偏向或反对更大的集群)。

基本上,我试图牺牲一些聚类准确性,以换取在偶尔添加新项目时避免完全重新聚类。

1个回答

我建议你从“数据集”和“训练集”的角度考虑这个问题(技术上,也建议有一个单独的测试集)。一旦在训练集上定义了集群,您就可以开始使用它们对任意数量的新数据进行分类,而无需重新计算,例如,只需测量与集群质心的相似性。

(这并不妨碍你决定以后扩大你的训练集和数据集,只是尽量不要有选择地这样做以避免过度拟合。)