我正在尝试学习语料库中每个文档的主题分布。
我有术语文档矩阵(dim 的稀疏矩阵:num_terms * no_docs)作为 LDA 模型的输入(num_topics=100),当我尝试为每个文档推断向量时,我得到了它们的均匀分布。这是极不可能的,因为文档具有不同的主题。
相关的代码片段是:
#input : scipy sparse term-doc matrix (no_terms * no_docs)
corpus = gensim.matutils.Sparse2Corpus(term_doc)
lda = gensim.models.LdaModel(corpus, 100)
vec_gen = lda[corpus]
vecs = [vec for vec in vec_gen]
现在对于 vecs 中的每个向量,我得到每个主题的相同概率。
谁能指出我哪里出错了?