数据挖掘 - 推荐/聚类数据以支持假设。这是无监督机器学习的有效用例吗？ - 吾爱随笔录

推荐/聚类数据以支持假设。这是无监督机器学习的有效用例吗？

数据挖掘聚类推荐系统无监督学习

2022-03-03 13:37:19

我有一个数据集，其中一些项目已被标记（分为 4 类 [A、B、C、D]）。但是，绝大多数数据集尚未标记。我的假设是，有一些特征会影响将哪个类别应用于每个项目。聚类甚至推荐系统是否能够建议每个项目的放置位置？在实际层面上，我会在模型中提供“标签”吗？或者我会将它分开直到最后，然后将这些标签覆盖在模型设法组合在一起的任何东西上？

上面的例子看起来像是一个集群用例。但是，我可以将问题转入推荐系统吗？如，您将项目 X 标记为 A，它具有特征 1,2,3...项目 Y 具有相似的特征，也许您也应该将其标记为 A？

1个回答

聚类和推荐是类似的任务，但是在推荐中，您通常希望推荐几个项目，而聚类通常将每个样本分配给一个聚类。

无论如何，对于您的问题，聚类甚至分类器可能会有所帮助。如果标签是基于相似性度量分配的（并且您可以很好地猜测该度量可能是什么），则可以使用聚类算法来估算缺失的标签（聚类基于样本之间的相似性）。但是，如果根据不同的指标（并且您不确定）样本可以相似是合理的，那么分类器可能会有所帮助 - 只要您有足够的标记数据来训练分类器。哪种方法效果最好还取决于标记样本的数量和特征的数量。

无论您选择使用估算标签的哪种策略都会有噪音（某些样本会被错误标记）。考虑到这一点很重要，尤其是在您要进一步处理这些标签时。

其它你可能感兴趣的问题

上一篇建立机器翻译语料库下一篇如何根据包含特定值的上一行填充 NaN