基于情绪对文本数据进行聚类?

数据挖掘 Python nlp 多类分类 无监督学习 情绪分析
2022-02-27 21:51:05

我正在从亚马逊上抓取评论,目的是进行情绪分析,将它们分为正面、负面和中性。现在我将获得的数据将是文本且未标记。

我解决这个问题的方法如下: -

1.) 使用DBScanHDBScanKMeans等聚类算法标记数据。集群的数量显然是 3。

2.) 在标记数据上训练分类算法。

现在我从未对文本数据进行过聚类,但我熟悉聚类的基础知识。所以我的问题是:

1.我的方法正确吗?

2. 任何文章/博客/教程我可以关注基于文本的聚类,因为我对此有点陌生?

PS:我熟悉 NLP 和聚类算法,但我从未对文本数据执行过聚类。

1个回答

在我看来,您的方法有两个主要问题:

  • 聚类极不可能与情绪相对应,除非您用于聚类的特征是专门设计用于表示情绪的。一般来说,文本聚类倾向于按常用词(即相似主题)对文档进行分组。例如,这可能会导致按产品类型划分的不同类别的评论。
  • 第二个也是我认为最重要的问题是,如果没有任何标记数据,您就无法评估系统。一个常见的错误是使用从聚类中获得的类来评估分类模型:这并没有评估情感分析的全部任务,因为没有办法知道聚类代表情感的程度。正确的方法是手动注释文档的随机子集以进行评估。

同样通常不需要分类模型的第二部分,因为无监督聚类模型可以直接应用于新实例。