具有序数和标称尺度数据的聚类、混合数据集

数据挖掘 特征缩放 聚类
2022-02-16 21:45:32

在阅读了一些如何在聚类中考虑分类数据之后,我得出的结论是,大多数帖子都没有区分标称尺度数据,例如颜色:红色、绿色、蓝色和有序尺度数据,例如大小:小、中, 大的。然而,项目之间的距离在序数尺度上是有意义的,即使它们在所有项目之间不一定相同。

我的问题:

  1. 我可以简单地将序数比例数据转换为数字比例而不会给聚类造成太大麻烦吗?我认为是的,出于上述原因,但如果您能确认,我会很高兴。
  2. 对于标称比例数据,项目之间的距离没有意义,将更难捕获。我发现的最简单的方法是,如果秤上没有太多项目,则分解秤并为每个项目添加一个变量。例如,最初,我们有颜色:红色、绿色、蓝色,并且我们制作了变量 colour_red、clour_green 和 colour_blue,其中每个都可以取值:0 或 1。请参阅 Jordan A 关于 K-Means clustering for mixed数字和分类数据在我看来,类型比率的有效数字比例,因为它有一个非任意的零值表示完全不存在某物,而 1 表示存在某物。您在集群方面有这方面的经验吗?这是一种有效的方法吗?

否则,我知道我应该将 kproto ( Kproto ) 用于混合数据集,或者将 kmodes ( Kmodes ) 用于普通的标称数据集。谢谢你的回复。

1个回答
  1. 是的,它几乎不会造成任何麻烦。您必须注意的唯一一点是可能有一个常规的序数,而序数实际上是不规则的。例如,有 1、2 和 3 号的衬衫,但“3”号不是“1”号的三倍。

  2. 当您的数据集中有分类变量时,虚拟变量创建是一种非常有效的方法,不仅适用于聚类,而且适用于您可以构建的几乎每个模型。