数据挖掘 - 基于情绪对文本数据进行聚类？ - 吾爱随笔录

数据挖掘 Python nlp 多类分类无监督学习情绪分析

2022-02-27 21:51:05

我正在从亚马逊上抓取评论，目的是进行情绪分析，将它们分为正面、负面和中性。现在我将获得的数据将是文本且未标记。

我解决这个问题的方法如下： -

1.) 使用DBScan、HDBScan或KMeans等聚类算法标记数据。集群的数量显然是 3。

2.) 在标记数据上训练分类算法。

现在我从未对文本数据进行过聚类，但我熟悉聚类的基础知识。所以我的问题是：

1.我的方法正确吗？

2. 任何文章/博客/教程我可以关注基于文本的聚类，因为我对此有点陌生？

PS：我熟悉 NLP 和聚类算法，但我从未对文本数据执行过聚类。

1个回答

在我看来，您的方法有两个主要问题：

聚类极不可能与情绪相对应，除非您用于聚类的特征是专门设计用于表示情绪的。一般来说，文本聚类倾向于按常用词（即相似主题）对文档进行分组。例如，这可能会导致按产品类型划分的不同类别的评论。
第二个也是我认为最重要的问题是，如果没有任何标记数据，您就无法评估系统。一个常见的错误是使用从聚类中获得的类来评估分类模型：这并没有评估情感分析的全部任务，因为没有办法知道聚类代表情感的程度。正确的方法是手动注释文档的随机子集以进行评估。

同样通常不需要分类模型的第二部分，因为无监督聚类模型可以直接应用于新实例。

其它你可能感兴趣的问题