在对词嵌入进行预处理时,我应该保留常用的停用词吗?

数据挖掘 词嵌入 word2vec nlp
2022-03-10 23:50:22

如果我想通过在给定上下文词的情况下预测目标词来构建词嵌入,是删除停用词还是保留它们更好?

敏捷的棕色狐狸跳过了懒惰的狗

或者

快速棕色狐狸跳懒狗

作为一个人,我觉得保留停用词会更容易理解,即使它们是多余的。

那么对于神经网络呢?

2个回答

一般来说,停用词可以省略,因为它们不包含有关句子或文档内容的任何有用信息。

这背后的直觉是停用词是一种语言中最常见的词,并且独立于上下文出现在每个文档中。因此,它们不包含可能暗示文档内容的有价值信息。

这不是强制性的。删除停用词有时会有所帮助,有时则无济于事。你应该两个都试试。

不使用停用词的案例:使用停用词将为用户的意图提供上下文。因此,当您使用像 BERT 这样的上下文模型时,会保留所有停用词以提供足够的上下文信息,例如被视为停用词的否定词(非、也不、从不)。

根据这篇论文

令人惊讶的是,停用词与非停用词一样受到关注,但删除它们对 MRR 性能没有影响。