您将使用哪种算法进行使用聚类的文本分类?

数据挖掘 数据挖掘 聚类
2022-03-01 19:19:10

如果您被要求使用聚类进行文本分类。你会使用哪种算法,为什么?

3个回答

这将取决于目的和文本。很多选项这是我用过的。

使用TF-IDF进行k 均值聚类

我所做的是将集群和任何文档向量限制为按权重排序的前 1000 个术语。这不仅会导致更快的处理,而且您会获得一些多模式集群,并且会有成千上万的术语。与即使是很长的单个文档相比,会发生的情况是那些非常长的向量稀释了相似性。我认为你也会得到更快的收敛。如果您想将文档排除在多模式集群之外,请不要截断集群向量。

tf-idf 向量是一个简单的开始,但很难对非常高维的数据进行聚类。

您可以尝试主题建模(例如 LDA、LSI)来降低特征的维度。

一种较新的方法是段落向量,它学习任意长度文本的分布式表示。是python中的一个实现。

学习文本的合理、低维表示可以帮助解决试图对高维数据进行聚类时出现的问题。

使用聚类的文本分类可以通过多种方式完成。其中一些是:

事实上,大多数(或几乎所有)聚类算法都可以应用于通过聚类对文本进行分类。