将机器学习算法应用于数据框中的属性子集

数据挖掘 Python 聚类 大数据 分类数据 降维
2022-02-25 08:26:18

我有这个巨大的混合数据集,由数字和分类属性组成,在 OneHotEncoding 后会生成一个具有非常高维数的数据集。

在数据集的子集上应用 K 均值聚类、降维和回归等机器学习算法是否明智?例如,首先将 K-means 聚类应用于数值列,然后将结果与分类数据集连接起来。

1个回答

仅对数据的一个子集应用机器学习算法并在以后包括其他子集不允许算法平等地评估每个属性的重要性。

例如,假设您有一个名为 A 的数据集,其中包含子集 B 和 C。不失一般性,如果您在子集 B 上拟合模型(“应用算法”),然后稍后包含子集 C,那么您重新说“给定子集 B 已经在模型中,评估包含子集 C 的影响”。相反,如果您将整个算法应用于整个数据集 (A),那么您将允许算法发现哪些特征对于期望的结果最重要。

话虽如此,以不同方式处理数据集的不同元素可能是明智之举。也就是说,分类协变量的建模可能与连续协变量不同。如果您使用的是前馈神经网络之类的东西,那没什么大不了的,但是如果您使用的是更传统的统计模型,则可能需要考虑到这一点。例如,在 R 中,您需要指定分类协变量实际上是“因子”变量。