我想将某个类别分配给一组关键字。因此,即人们可以上传图像或视频,当他们这样做时,他们可以为此设置关键字。这些关键字可以自由输入,因此可以以不同的方式拼写单词。关键字的数量在 0 到 20 个单词之间占 95%。
我想从这些创建类别。这样我就可以将关键字组合分配给一个类别。
类别和类别数量未定义。
根据我的研究,这可能是一个主题建模或聚类问题。尽管使用主题建模,我看到的大多数示例都是基于长文本而不是几个关键字。
处理这个问题的好方法是什么?
我首先想到了一些简单的fuzzywuzzy来找到相同单词的不同拼写。
从中创建一个大单词列表。然后每个关键字将与列表进行匹配,如果匹配一个则重写,如果匹配不好则添加。
然后我需要创建组,在这里我不知道应该使用哪些算法。
我在想也许做 k-means 聚类,然后看看我在哪个 k 上得到最好的结果,然后通过查看其中的关键字手动为其分配一个类别。
所以让算法计算出数量和类别会很好,但我会在之前设置它们可以放松。
有没有人有更好的建议,或者是否已经有完整的算法可用?