IOB和IOB2格式的区别?

数据挖掘 数据集 nlp 命名实体识别
2022-03-01 06:41:54

我必须为 NER 标记数据集。我遇到了conll2002/esp到目前为止我所理解的,如果我想标记 ' Alex Larson is going to Los Angeles for a job interview with Candace Patrick',它会是 IOB2 格式:

Alex B-PER
Larson I-PER
is O
going O
to O
Los B-LOC
Angeles I-LOC
for O
a O
job O
interview O
with O
Candace B-PER
Patrick I-PER

我对吗?IOB格式呢?

2个回答

差异与命名实体的长度无关。相反,它处理的是如何标记两个相邻的相同类型的命名实体。

在IOB1(IOB)中,B-仅用于分隔两个相邻的同类型实体:

Today    O
Alice    I-PER
Bob      B-PER
and      O
I        O  # or I-PER if pronominals are being tagged
ate      O
lasagna  O

在 IOB2 中,所有实体都以 B- 开头:

Today    O
Alice    B-PER
Bob      B-PER
and      O
I        O  # or B-PER if pronominals are being tagged
ate      O
lasagna  O

维基百科

IOB:在这里,I用于块内的令牌,O用于块外的令牌,并且B仅用于跨越多个令牌的命名实体(块)的开始令牌。

Alex I-PER
is O
going O
to O
Los B-LOC
Angeles I-LOC

IOB2:和IOB一样,只是B-标签用在每个块的开头(即所有块都以B-标签开头)。

Alex B-PER
is O
going O
to O
Los B-LOC
Angeles I-LOC