在阅读了一些如何在聚类中考虑分类数据之后,我得出的结论是,大多数帖子都没有区分标称尺度数据,例如颜色:红色、绿色、蓝色和有序尺度数据,例如大小:小、中, 大的。然而,项目之间的距离在序数尺度上是有意义的,即使它们在所有项目之间不一定相同。
我的问题:
- 我可以简单地将序数比例数据转换为数字比例而不会给聚类造成太大麻烦吗?我认为是的,出于上述原因,但如果您能确认,我会很高兴。
- 对于标称比例数据,项目之间的距离没有意义,将更难捕获。我发现的最简单的方法是,如果秤上没有太多项目,则分解秤并为每个项目添加一个变量。例如,最初,我们有颜色:红色、绿色、蓝色,并且我们制作了变量 colour_red、clour_green 和 colour_blue,其中每个都可以取值:0 或 1。请参阅 Jordan A 关于 K-Means clustering for mixed数字和分类数据。在我看来,类型比率的有效数字比例,因为它有一个非任意的零值表示完全不存在某物,而 1 表示存在某物。您在集群方面有这方面的经验吗?这是一种有效的方法吗?
否则,我知道我应该将 kproto ( Kproto ) 用于混合数据集,或者将 kmodes ( Kmodes ) 用于普通的标称数据集。谢谢你的回复。