带有部分已知标签的序列标签

数据挖掘 顺序 序列到序列
2022-03-14 13:16:50

我正在从事一项序列标记任务,根据经验,可以通过简单的基于规则的方法可靠地提取给定输入序列的许多标签。例如,考虑以下输入序列:

[1, 2, 3, 1, 2, 1, 1] (ground truth labels of input sequence)
[1, X, 3, 1, 2, 1, Y] (labels as extracted by the rule-based approach)

在上面的示例中,基于规则的系统能够从输入中提取除两个标签之外的所有标签。也就是说,只有X并且Y仍然需要通过机器学习方法来确定。

是否有已知的方法或算法将基于规则的系统提取的标签合并到机器学习过程中,而不是从头开始运行序列标签算法?直观地说,来自基于规则的系统的附加信息应该使机器学习算法“更容易”填充剩余的插槽。

1个回答

您可以训练一个常规序列标签模型(通常是 CRF),其中一个特征是基于规则的预测标签:它的值是已知的实际标签或特殊unknown值。鉴于模型可以考虑标签之间的依赖关系(如参数中指定的那样),并且基于规则的特征总是给出标签,除非 if unknown,模型应该能够学习:

  • 在这种情况下,它应该“信任”基于规则的特性(当 value 不是时unknown
  • 通过利用特征和已知标签来预测丢失的标签。

请注意,在极少数情况下,即使提供了基于规则的标签,模型仍可能预测错误的标签。如果以这种方式最大化序列的概率,就会发生这种情况,但如果训练数据代表分布,则不太可能发生。