LDA vs Word2Vec vs Others 用于预测消息的收件人

数据挖掘 聚类 监督学习 word2vec 低密度脂蛋白
2022-03-05 10:57:03

我正在研究各种 NLP 算法和工具来解决以下问题;这里是 NLP 新手,如果它太基本,请原谅我的问题。

假设我有一个消息应用程序,用户可以在其中向一个或多个人发送短信。当用户键入消息时,我希望应用程序向用户建议消息的潜在收件人是谁?

如果用户“A”给用户“B”发了很多关于“猫”的短信,给用户“C”发了一些短信,给用户“D”发了很多关于“政治”的短信,那么下次用户输入有关“猫”的消息,则应用程序应建议“B”和“C”而不是“D”。

因此,我正在对主题建模和词嵌入进行一些研究,发现 LDA 和 Word2Vec 是我可以使用的两种可能的算法。

想在你认为更适合这种情况的情况下挑选你的大脑。

我的一个想法是,使用 LDA 从以前的消息中提取主题,并根据过去讨论主题(即发送的消息)的次数对消息的接收者进行排名。如果我有这个主题的映射和你谈论它的用户的排序列表(根据频率排名),那么当用户输入消息时,我可以再次对消息运行主题提取,预测消息的内容然后查找映射以查看谁可以成为可能的收件人并向用户显示。

这是一个好方法吗?或者,Word2Vec(或 doc2vec 或 lda2vec)更适合这个问题,我们可以使用词的向量表示(也就是词嵌入)来预测相似的消息?我们真的需要从消息中提取主题来预测收件人吗?还是这里不需要?您认为任何其他算法或技术效果最好?我应该只使用监督学习吗?

你有什么想法和建议?

谢谢您的帮助。

1个回答

为什么绕道而行?

您可以只学习线性 SVM 来直接预测收件人,并避免主题建模的所有困难。如果邮件不涉及任何先前的主题怎么办?有多少主题?