特定于语言的 NLP 方法?

数据挖掘 nlp 算法
2022-02-14 02:37:58

哪些 NLP 方法/算法依赖于仅存在于某些语言中的功能?比如法语有没有英语NLP和西班牙语NLP没有的NLP算法?

1个回答

这个问题很开放,但尽管如此,这里有一些:

  • lemmatization/stemming 仅在单词中有 lemma/stem 的语言中才有意义。像中文这样的一些语言没有形态变化(除了一些有争议的情况,如显式复数 s),因此在中文中不应用词形还原和词干提取。

  • 在许多 NLP 系统中,基于单词的词汇表用于表示文本。然而,在粘着多合成语言中,使用词级词汇表是很疯狂的,因为你可以把很多词缀放在一起形成一个新词,因此,需要预先对词进行切分。

  • 在中文和日文等一些语言中,单词之间没有空格。因此,为了应用几乎任何 NLP,您需要一个预处理步骤将文本分割成单词。