数据挖掘 - 对期望看到新文本的模型使用 tfidf 矩阵是否有意义？ - 吾爱随笔录

数据挖掘 nlp 文本分类

2022-03-16 13:24:48

我现在正在训练一个模型来对推文进行分类。我见过的大多数文本分类示例都将推文转换为 tf-idf 文档术语矩阵作为模型的输入。但是，该模型应该能够识别新收集的推文而无需重新训练。在这种情况下使用 tf-idf 有意义吗？在此任务中将推文转换为特征向量的正确方法是什么？

1个回答

问题并不是真正的“新文本”，因为根据定义，任何文本分类模型都旨在应用于某些新文本。问题在于词汇量不足（OOV）：该模型将无法表示它在训练数据中没有看到的单词。

处理测试数据中的 OOV 最简单的方法（也可能是最标准的方法）是在将文本表示为特征之前完全删除它们。

自然地，OOV 词可能是一个严重的问题，尤其是在 Twitter 等词汇快速发展的数据中。但是这个问题与是否使用 TF-IDF 无关：在某个时间点训练的任何模型都只能考虑训练数据中的词汇，它无法猜测未来的单词相对于类的行为. 唯一的解决方案是使用某种形式的再训练，例如半监督学习。

其它你可能感兴趣的问题