聚类之后,有没有办法解释聚类?或者得到集群的边界?
例如:如果我们有一个关于人们消费习惯的数据集,其中包含他们在杂货、服装、交通、租金等不同类别中的消费列。我们在其上应用了聚类算法(如 k-means 或凝聚聚类)。我们能否获得集群的描述,例如:
集群 1 包含消费的人
- 杂货超过500美元
- 交通费不到200美元
集群 2 包含消费的人
- 租金不到100美元
- 交通费不到300美元
- 交通费用超过50美元
基本上我需要一个对外行用户有意义的解释。
聚类之后,有没有办法解释聚类?或者得到集群的边界?
例如:如果我们有一个关于人们消费习惯的数据集,其中包含他们在杂货、服装、交通、租金等不同类别中的消费列。我们在其上应用了聚类算法(如 k-means 或凝聚聚类)。我们能否获得集群的描述,例如:
集群 1 包含消费的人
集群 2 包含消费的人
基本上我需要一个对外行用户有意义的解释。
这取决于您使用的聚类技术。既然你用我标记了这篇文章,k-means我会假设这就是你正在使用的。集群中心应该已经为外行提供了一些信息,但是由于您应该/正在扩展,这可能会失去一些解释。
您可以做的是根据每个样本最终所在的集群为每个样本分配类标签。然后您可以将多类决策树拟合到您的数据并使用决策规则进行解释,例如集群 1 的 60% 具有。
Jan van der Vegt 的完美答案。
此外,如果您没有任何选项可以将标签添加到每条记录,则必须依靠您的领域知识来解释集群结果。
如果我用外行的话来说,K-Means 仅在您知道需要获得多少个集群(可能使用 Scree 图)才能为您的业务问题获得有意义的见解时应用。因此,您的脑海中一定已经有了数字/集群。它不仅仅是你必须应用算法。
示例-如果您决定要拥有两个集群(根据您的问题),
集群 1 - 这个群体可能代表居住在城市地区的人,花更多的钱,杂货店/日用品店的密度更大,导致交通更少
集群 2 - 该组可能包括来自乡村的人,因此他们的交通成本高于其他集群。
您可以根据结果训练决策树分类器。
决策树是少数能够产生“可解释”结果的算法之一。
但是您需要了解,集群比简单的 if-then 规则要复杂得多。