是否在bigram中包含第一个单词?

数据挖掘 nlp
2022-03-09 02:26:27

在诸如

“周末在多伦多敲定了与加拿大巴里克黄金公司的交易”

当我尝试将其分解为二元模型时,我得到了这个

"The deal"
"deal with" 
"with Canada's"
"Canada's Barrick"
"Barrick Gold"
"Gold finalised"
"finalised in"
"in Toronto"
"Toronto over"
"over the"
"the weekend"

我的问题

我应该将第一个单词和最后一个单词作为单个单词包含吗

"* The"
"Weekend *"
1个回答

您所描述的称为填充,并且确实在语言建模中经常使用。例如,如果一个用三元组表示序列“AB C”:

# # A
# A B
A B C
B C #
C # #

填充的优点:

  • 它使每个单词/符号出现相同的次数,无论它是否出现在序列的中间。
  • 它标记了句子/文本的开始和结束,以便模型可以表示以特定单词开始/结束的概率。