我正在尝试通过 Python 和 NLP 实现主题建模,但不知道我应该使用什么算法。我研究了潜在语义分析 (LSA)、潜在狄利克雷分配 (LDA) 和非负矩阵分解 (NMF),但如何确定哪种算法最适合特定任务?如果我只是连续尝试所有这些,那么如何衡量结果?
主题建模中的 LSA、LDA 或 NMF?
数据挖掘
nlp
2022-03-08 00:22:26
2个回答
据我所知,LDA 是最先进的主题建模方法,但我并没有密切关注该领域。所以我会说使用 LDA 是相当安全的,而且我的猜测是不同的方法可能会给出类似的结果。
如果您想尝试不同的方法,评估主题模型的问题是相当复杂的。这篇文章可能会有所帮助。
旁注:LDA 有一个非参数变体(无需选择主题数量),称为Hierarchical Dirichlet Processes。
由于这三种算法在 Python 中都有标准实现,因此您应该尝试所有三种算法。
评估主题建模的最佳方法之一是对主题进行随机抽样,看看它们是否“有意义”。手动检查哪些文档在哪个集群中是查看主题建模是否按照您的预期进行的好方法。