对期望看到新文本的模型使用 tfidf 矩阵是否有意义?

数据挖掘 nlp 文本分类
2022-03-16 13:24:48

我现在正在训练一个模型来对推文进行分类。我见过的大多数文本分类示例都将推文转换为 tf-idf 文档术语矩阵作为模型的输入。但是,该模型应该能够识别新收集的推文而无需重新训练。在这种情况下使用 tf-idf 有意义吗?在此任务中将推文转换为特征向量的正确方法是什么?

1个回答

问题并不是真正的“新文本”,因为根据定义,任何文本分类模型都旨在应用于某些新文本。问题在于词汇量不足(OOV):该模型将无法表示它在训练数据中没有看到的单词。

处理测试数据中的 OOV 最简单的方法(也可能是最标准的方法)是在将文本表示为特征之前完全删除它们。

自然地,OOV 词可能是一个严重的问题,尤其是在 Twitter 等词汇快速发展的数据中。但是这个问题与是否使用 TF-IDF 无关:在某个时间点训练的任何模型都只能考虑训练数据中的词汇,它无法猜测未来的单词相对于类的行为. 唯一的解决方案是使用某种形式的再训练,例如半监督学习。