数据挖掘 - 根据关键字选择类别的方法 - 吾爱随笔录

我想将某个类别分配给一组关键字。因此，即人们可以上传图像或视频，当他们这样做时，他们可以为此设置关键字。这些关键字可以自由输入，因此可以以不同的方式拼写单词。关键字的数量在 0 到 20 个单词之间占 95%。

我想从这些创建类别。这样我就可以将关键字组合分配给一个类别。

类别和类别数量未定义。

根据我的研究，这可能是一个主题建模或聚类问题。尽管使用主题建模，我看到的大多数示例都是基于长文本而不是几个关键字。

处理这个问题的好方法是什么？

我首先想到了一些简单的fuzzywuzzy来找到相同单词的不同拼写。

从中创建一个大单词列表。然后每个关键字将与列表进行匹配，如果匹配一个则重写，如果匹配不好则添加。

然后我需要创建组，在这里我不知道应该使用哪些算法。

我在想也许做 k-means 聚类，然后看看我在哪个 k 上得到最好的结果，然后通过查看其中的关键字手动为其分配一个类别。

所以让算法计算出数量和类别会很好，但我会在之前设置它们可以放松。

有没有人有更好的建议，或者是否已经有完整的算法可用？