减少词袋维度的最佳方法是什么?

数据挖掘 nlp
2022-02-25 21:45:44

我有一个包含 600 条评论的小型文本数据集。我的任务是二分类。为了训练我的模型,我使用 sklearn CountVectorizer 将评论转换成一个词袋。词汇量有 1800 个单词,远远大于评论的数量。那么,如何降低数据集的维数?我想知道这一点,因为我相信这个更大的词汇量对模型来说是一个问题。我知道减少维度的方法,例如 PCA,但我不知道它在文本分类的上下文中是否像在表格数据集中一样有用。我也是 nlp 的新手,所以我想知道是否有更好的方法来降低维度,比如选择词汇表中最好的单词并只使用这些单词。

1个回答

一种选择是使用预训练的嵌入空间。预训练的嵌入空间将具有低得多的维度,并且很可能您的语料库中的所有单词都将在其中。