两步聚类中距离的推导

机器算法验证 聚类 spss 距离函数
2022-03-15 18:51:06

我正在使用 SPSS Modeler (Clementine) 中的两步聚类过程,并试图了解所使用的距离函数。这是一个对数似然函数(如文档中所述),但我甚至不确定连续变量(该函数处理连续变量和名义变量)这是一个对数似然函数(它缺少高斯的大部分元素)。下面是描述距离公式的文档的屏幕截图。

有人看过这个距离函数的推导吗?

在此处输入图像描述

1个回答

SPSS 两步聚类模型算法在以下内容中有更详细的描述:

Chiu、Tom、DongPing Fang、John Chen、Yao Wang 和 Christopher Jeris(2001 年),“大型数据库环境中混合类型属性的稳健且可扩展的聚类算法”,第七届 ACM SIGKDD 知识发现和数据国际会议论文集挖掘 KDD '01.

更一般地,如果您查看基于模型的聚类文献和潜在类别文献,您应该了解连续变量和名义变量如何进入可能性。Latent Gold 的各种文档非常有用,并且可以在网络上找到。

大多数已发表的文献使用的模型与 SPSS 中的模型略有不同。差异与班级规模(先验)的处理有关。SPSS 修改是一种简化,似乎旨在降低计算成本(而不是增加严格性)。