我有近 50000 个纯文本格式的文档。
有没有办法可以将类似的文档组合在一起?相似度在这里主要是内容相似度。
将文本转换为向量(使用 TFIDF)并在此基础上运行 K-Means(无监督学习)算法会有所帮助吗?有没有更好的方法可以使用?
我有近 50000 个纯文本格式的文档。
有没有办法可以将类似的文档组合在一起?相似度在这里主要是内容相似度。
将文本转换为向量(使用 TFIDF)并在此基础上运行 K-Means(无监督学习)算法会有所帮助吗?有没有更好的方法可以使用?
我不久前做过类似的事情。我们想对几种类型的 pdf 进行分类。
我想你也可以进行无监督学习,但是当你可以进行监督学习时,我更喜欢它。
一种常见的方法是 LDA(潜在狄利克雷分配),它不仅为您提供组,而且还通过为您提供每个主题的最常见或最独特的词来识别组的主题。