找出两个文本文档之间相似性的最佳方法是什么?

人工智能 自然语言处理 分类 推荐系统
2021-10-21 22:32:04

我想开发一个平台,人们可以在其中写文字和上传图片。我将使用 Google API 对文本进行分类并从图像中提取各种元数据。最后,我将有很多描述内容(文本和图像)的文本。稍后,我想向我的用户展示相关的帖子(也就是类似的帖子,从内容的角度来看)。

这样做最合适的方法是什么?我不是 AI 专家,从我的规范来看,最好的方法是拥有一些工具,比如 google API 或 Apache Lucene 搜索引擎,它们可以隐藏如何完成的细节。

2个回答

我建议将文档转换为TF-IDF(使用 Gensim)向量,然后使用cosine similarity等各种相似度计算技术进行比较。

您应该同样阅读这篇精彩的文章。我曾经在我的项目中使用过它。

https://medium.com/@adriensieg/text-similarities-da019229c894

Google 引入了Universal Sentence Encoder,它将句子转换为向量表示,同时保留语义细节。Tensorflow Hub上提供了预训练模型Colab笔记本也可以帮助您入门。