根据关键字选择类别的方法

数据挖掘 nlp 聚类 主题模型
2022-02-27 20:56:03

我想将某个类别分配给一组关键字。因此,即人们可以上传图像或视频,当他们这样做时,他们可以为此设置关键字。这些关键字可以自由输入,因此可以以不同的方式拼写单词。关键字的数量在 0 到 20 个单词之间占 95%。

我想从这些创建类别。这样我就可以将关键字组合分配给一个类别。

类别和类别数量未定义。

根据我的研究,这可能是一个主题建模或聚类问题。尽管使用主题建模,我看到的大多数示例都是基于长文本而不是几个关键字。

处理这个问题的好方法是什么?

我首先想到了一些简单的fuzzywuzzy来找到相同单词的不同拼写。

从中创建一个大单词列表。然后每个关键字将与列表进行匹配,如果匹配一个则重写,如果匹配不好则添加。

然后我需要创建组,在这里我不知道应该使用哪些算法。

我在想也许做 k-means 聚类,然后看看我在哪个 k 上得到最好的结果,然后通过查看其中的关键字手动为其分配一个类别。

所以让算法计算出数量和类别会很好,但我会在之前设置它们可以放松。

有没有人有更好的建议,或者是否已经有完整的算法可用?

1个回答

有没有人有更好的建议,或者是否已经有完整的算法可用?

显然您想要进行信息检索 (IR) 但没有信息部分:通常 IR 过程的一个重要部分是用户正在搜索的一组文档(例如文本、图像视频)。这很重要,因为知道与查询对应的文档可以提供有关关键字的语义信息。

现在,如果您只有可用的关键字,那么就没有语义可以帮助进行聚类。所以你是对的,你唯一可以使用的就是拼写。我假设“简单的fuzzywuzzy”是指“模糊匹配”,即使用字符串相似性度量。我可以想到两个选择:

  • 您可以将每个关键字与一些字符串相似性度量进行比较,例如 Levenshtein 编辑距离、Jaro 或基于字符 n-gram 的 Jaccard、余弦等。
  • 您可以根据单词中的 char n-gram 将每个关键字表示为一个向量,然后您可以使用 k-means 进行聚类。

主题建模技术不起作用,因为您没有大型文本文档。