如何决定选择 BOW 还是 TFIDF

数据挖掘 nlp tfidf 词袋
2022-03-02 02:43:20

我知道有一些方法可以帮助选择诸如 Matual Info 和 Info Gain 等特征。

但是对于具有数千条记录和数千个特征的数据集,在 BOW 和 TFIDF 中训练模型以确定哪种方法更好是非常耗时的。

有没有办法决定选择哪种方法而无需花费所有时间?

2个回答

这取决于您要解决的问题。如果您已经知道数据集中的信号,那么决定您的决定的单词将与 Bag of Words 一起使用。当您执行文本分类之类的操作时,这很有用。

另一方面,当您不知道数据集中的信号时,TF-IDF 很有用。如果你想做文本相似度,那么,这是一个不错的选择。

从技术上讲,BOW 包括将单词视为一组的所有方法,即不考虑顺序。因此 TFIDF 属于 BOW 方法:TFIDF 是一种加权方案,应用于被视为一个集合的单词。可以有许多其他选项来对集合中的单词进行加权。

与常规的 TF 加权 BOW 相比,TFIDF 加权方案对出现在较少文档中的单词赋予更大的权重,而对出现在许多文档中的单词赋予较少的权重。理由是出现在许多文档中的单词不太可能相关,因为它无助于选择最相似的文档。通常最常见的词是语法词(也称为停用词,例如限定词、代词等),但在由科幻书籍组成的语料库中,例如“机器人”或“行星”等词也会非常常见的。相反,像“大象”这样的词在科幻语境中是非常罕见的,所以它被赋予了更多的权重,因为它更具歧视性。

这在目标是找到与查询相似的文档的信息检索任务中是有意义的,并且通过扩展它在目标是通过语义相似性比较文本文档的大多数任务中很有用。它在与文本风格相关的分类任务中没有意义,而且往往适得其反,而不是其语义内容。

请注意,Okapi BM25是一种类似的加权方案,它不像 TFIDF 那样出名,但已被证明在大多数应用程序中效果更好。