人工智能 - 找出两个文本文档之间相似性的最佳方法是什么？ - 吾爱随笔录

人工智能自然语言处理分类推荐系统

2021-10-21 22:32:04

我想开发一个平台，人们可以在其中写文字和上传图片。我将使用 Google API 对文本进行分类并从图像中提取各种元数据。最后，我将有很多描述内容（文本和图像）的文本。稍后，我想向我的用户展示相关的帖子（也就是类似的帖子，从内容的角度来看）。

这样做最合适的方法是什么？我不是 AI 专家，从我的规范来看，最好的方法是拥有一些工具，比如 google API 或 Apache Lucene 搜索引擎，它们可以隐藏如何完成的细节。

2个回答

我建议将文档转换为TF-IDF（使用 Gensim）向量，然后使用cosine similarity等各种相似度计算技术进行比较。

您应该同样阅读这篇精彩的文章。我曾经在我的项目中使用过它。

Google 引入了Universal Sentence Encoder，它将句子转换为向量表示，同时保留语义细节。Tensorflow Hub上提供了预训练模型。Colab笔记本也可以帮助您入门。

其它你可能感兴趣的问题