文档相似度

数据挖掘 机器学习 nlp 无监督学习 监督学习 类似文件
2022-03-08 01:36:15

我有近 50000 个纯文本格式的文档。

有没有办法可以将类似的文档组合在一起?相似度在这里主要是内容相似度。

将文本转换为向量(使用 TFIDF)并在此基础上运行 K-Means(无监督学习)算法会有所帮助吗?有没有更好的方法可以使用?

2个回答

我不久前做过类似的事情。我们想对几种类型的 pdf 进行分类。

  • 我们首先提取了文档的文本。
  • 我们用文本创建了 NLP 特征
  • 然后添加pdf元数据:文件大小,页数,文档名称......
  • 然后我们用几个样本建立了一个分类模型并进行了主动学习

我想你也可以进行无监督学习,但是当你可以进行监督学习时,我更喜欢它。

一种常见的方法是 LDA(潜在狄利克雷分配),它不仅为您提供组,而且还通过为您提供每个主题的最常见或最独特的词来识别组的主题。