数据挖掘 - 使用主题建模查找特定主题 - 吾爱随笔录

我正在寻找一种按特定主题自动分类文本的方法，我没有标记数据。这是实现这一目标的可能/通常方法吗？如果没有，什么会更好？

使用 Mallet 进行主题建模

我注意到mallet 找到了有趣的主题，但这些主题仅与我想要识别的主题部分匹配。所以想法是遍历所有有趣的 k 并搜索以最高百分比满足要求的主题。

用肘部查找几个（良好的连贯性得分）k 个主题（=k 的好数量列表）
查看高频术语并（手动）将这些术语映射到所需的主题（=每个搜索主题的单词列表）
为所有好的 k 建模主题并搜索与单词列表的良好匹配

例子

我想对关于“环境污染”主题的文本进行分类/识别

[17, 15, 20, 33, 41, 42, 55, 120] k => 具有良好的连贯性得分
[污垢，污染，排放，污染] => 高频，这些词会与主题匹配
用 k=33 找到与这些关键字匹配的主题。

这可用于对看不见的文本进行分类（稍后用于标记文本以进行监督学习）

主题“环境污染”

[('pollution', 0.09756215849203013), ('dirt', 0.09028743250670891), ('emission', 0.05491609816030263), ('contamination', 0.02589802450774354), ('sea', 0.02088654660674448), ('ocean', 0.017281515729574187), ( '气候', 0.014694946490348864), ('危机', 0.013676484852403893), ('废物', 0.011380904652591419), ('烟雾', 0.009812797051311068)])