如果我分别聚类数字属性和分类属性是错误的吗?

数据挖掘 聚类
2022-02-27 06:34:20

我有一个包含混合数据类型(具有多个级别的数字和分类)的信贷客户数据集。我正在尝试执行分段,以便最终得到 k 个组,然后构建定义(基于我拥有的属性)。

虽然有针对混合数据类型(K-prototypes,具有高尔距离的层次聚类)的聚类数据的解决方案,但为什么将数字属性和分类属性分别聚类并单独提出定义是错误的?

2个回答

不使用所有属性并没有错。事实上,有一些子空间聚类方法试图识别(部分)信息属性以及聚类(但主要用于连续变量)。

在您的数据上,您将遇到大数据准备问题,这需要仔细加权和非线性转换。因此,在进行任何组合之前,首先尝试了解每个属性可能是一个好主意。

还要记住,聚类永远不会是正确的或“最佳的”。一个成功的集群是给你一个新的见解任何导致可验证见解的方法都是可以的!只是不要假设你可以自动化这个。

通常,对单独的分类和数字特征进行聚类是错误的,因为它可能导致合并其他单独的聚类。这是一个视觉示例,说明为什么这可能会失败(由我自己绘制):

分类数值分离对聚类的影响

如果我们只对分类特征进行聚类,则聚类 C1 和 C2 将被合并。如果我们只对数值特征进行聚类,则所有三个聚类都将被合并。因此,无法单独找到集群 C1 和 C2。

作为旁注,这种盲目分离不同于仔细的特征选择(在这个答案中提到),最终可能会产生分类和数字特征。