例如,我有由房价组成的数据集。该数据集包含以下特征:房屋大小、月租、房屋颜色、位置、房屋建造年份。
我想将这些所有属性分组到集群中。问题是如何表示分类特征,例如颜色。聚类算法如何处理这些分类变量?
另一个问题是:假设月租金为 0 会发生什么,这对聚类有何影响?
例如,我有由房价组成的数据集。该数据集包含以下特征:房屋大小、月租、房屋颜色、位置、房屋建造年份。
我想将这些所有属性分组到集群中。问题是如何表示分类特征,例如颜色。聚类算法如何处理这些分类变量?
另一个问题是:假设月租金为 0 会发生什么,这对聚类有何影响?
谢谢你的问题,它询问如何在聚类中表示分类变量。
我们表示任何分类变量的主要方式是将它们表示为一次性编码(https://machinelearningmastery.com/why-one-hot-encode-data-in-machine-learning/)。
在将我们的分类变量转换为 one-hot 编码后,我们只需将这些向量与我们的数值(应该标准化!)连接起来,为数据集中的特定示例创建一个长/高维向量。