推荐/聚类数据以支持假设。这是无监督机器学习的有效用例吗?

数据挖掘 聚类 推荐系统 无监督学习
2022-03-03 13:37:19

我有一个数据集,其中一些项目已被标记(分为 4 类 [A、B、C、D])。但是,绝大多数数据集尚未标记。我的假设是,有一些特征会影响将哪个类别应用于每个项目。聚类甚至推荐系统是否能够建议每个项目的放置位置?在实际层面上,我会在模型中提供“标签”吗?或者我会将它分开直到最后,然后将这些标签覆盖在模型设法组合在一起的任何东西上?

上面的例子看起来像是一个集群用例。但是,我可以将问题转入推荐系统吗?如,您将项目 X 标记为 A,它具有特征 1,2,3...项目 Y 具有相似的特征,也许您也应该将其标记为 A?

1个回答

聚类和推荐是类似的任务,但是在推荐中,您通常希望推荐几个项目,而聚类通常将每个样本分配给一个聚类。

无论如何,对于您的问题,聚类甚至分类器可能会有所帮助。如果标签是基于相似性度量分配的(并且您可以很好地猜测该度量可能是什么),则可以使用聚类算法来估算缺失的标签(聚类基于样本之间的相似性)。但是,如果根据不同的指标(并且您不确定)样本可以相似是合理的,那么分类器可能会有所帮助 - 只要您有足够的标记数据来训练分类器。哪种方法效果最好还取决于标记样本的数量和特征的数量。

无论您选择使用估算标签的哪种策略都会有噪音(某些样本会被错误标记)。考虑到这一点很重要,尤其是在您要进一步处理这些标签时。