我正在从亚马逊上抓取评论,目的是进行情绪分析,将它们分为正面、负面和中性。现在我将获得的数据将是文本且未标记。
我解决这个问题的方法如下: -
1.) 使用DBScan、HDBScan或KMeans等聚类算法标记数据。集群的数量显然是 3。
2.) 在标记数据上训练分类算法。
现在我从未对文本数据进行过聚类,但我熟悉聚类的基础知识。所以我的问题是:
1.我的方法正确吗?
2. 任何文章/博客/教程我可以关注基于文本的聚类,因为我对此有点陌生?
PS:我熟悉 NLP 和聚类算法,但我从未对文本数据执行过聚类。