我想开发一个平台,人们可以在其中写文字和上传图片。我将使用 Google API 对文本进行分类并从图像中提取各种元数据。最后,我将有很多描述内容(文本和图像)的文本。稍后,我想向我的用户展示相关的帖子(也就是类似的帖子,从内容的角度来看)。
这样做最合适的方法是什么?我不是 AI 专家,从我的规范来看,最好的方法是拥有一些工具,比如 google API 或 Apache Lucene 搜索引擎,它们可以隐藏如何完成的细节。
我想开发一个平台,人们可以在其中写文字和上传图片。我将使用 Google API 对文本进行分类并从图像中提取各种元数据。最后,我将有很多描述内容(文本和图像)的文本。稍后,我想向我的用户展示相关的帖子(也就是类似的帖子,从内容的角度来看)。
这样做最合适的方法是什么?我不是 AI 专家,从我的规范来看,最好的方法是拥有一些工具,比如 google API 或 Apache Lucene 搜索引擎,它们可以隐藏如何完成的细节。
我建议将文档转换为TF-IDF(使用 Gensim)向量,然后使用cosine similarity等各种相似度计算技术进行比较。
您应该同样阅读这篇精彩的文章。我曾经在我的项目中使用过它。
https://medium.com/@adriensieg/text-similarities-da019229c894
Google 引入了Universal Sentence Encoder,它将句子转换为向量表示,同时保留语义细节。Tensorflow Hub上提供了预训练模型。Colab笔记本也可以帮助您入门。