我正在研究一个在以下方面相当不寻常的数据集:
- 它不仅有自然语言文本,它还有用户名,甚至代码片段等文本。
- 对于 750K 的文档集和大约 19M 的标记,词汇量(唯一标记)大小异常大(2M)。
数据集的所有方面都很重要,必须包含在训练中,即用户名、代码片段等。
在标记化、去除停用词和词干提取之后,我训练了潜在 Dirichet 分配 (LDA)。训练集大小为 720K,其中大约 16M 个令牌。我训练了 200 和 300 个主题以及 50 和 100 次训练数据。
我正在测试集上进行测试,以查看测试集中每个文档的前 5 个最可能主题的分布。
我发现,对于 200 和 300 个主题,它正在下降 Zip 定律。
有人可以解释为什么会这样吗?少培训或多培训或可能是什么原因?
附上200(橙色)主题和300(蓝色)主题的分布。(抱歉标题错误。)这些图表是通过提取每个文档的前 5 个主题然后计算每个主题的值(即测试集中的主题频率)并按降序绘制频率来绘制的。

