三元组是否保证比二元组更准确?

机器算法验证 造型 文本挖掘 自然语言 语言模型
2022-03-24 21:21:47

在实现一些NLP项目时,比如文本分割,名称实体识别,使用trigram保证比bigram更准确吗?

Trigram:p(stst2,st1)
Bigram:p(stst1)

编辑:我正在使用 HMM 对引文记录(出版物)进行 NER。我在我的实现中使用了二元组。准确性还可以。我在 Coursera 上看到 Michael Collins 的NLP 课程,他使用 trigram HMM 进行 POS 标记。所以我想知道三元组是否会显着提高性能,或者只是一点点。而且我也很好奇,在任何情况下,trigram 是否会比 bigram 表现更差。

whuber 已经在评论中很好地概述了 trigram 的优缺点。

2个回答

正如 whuber 在他的评论中解释的那样,这取决于许多因素,我认为最重要的因素是火车组包含的信息。例如,如果训练集很小,您可能会有看不见的三元组,这会在标记测试集时引起问题。n-gram 大小的选择可以看作是偏差-方差折衷。

在二元组中,我们考虑过去的一个词,在三元组中,我们考虑过去的两个词。可能发生的是,过去的两个词本身发生的时间更少,而当它发生时,它包含所有这些可能的词,频率相同,或多或少。在我的训练集中,两个单词的三元概率相同,而二元概率不同但差别很大。因此,这取决于训练集和测试集,哪个模型会给出最佳答案。