数据挖掘 - 带有部分已知标签的序列标签 - 吾爱随笔录

我正在从事一项序列标记任务，根据经验，可以通过简单的基于规则的方法可靠地提取给定输入序列的许多标签。例如，考虑以下输入序列：

[1, 2, 3, 1, 2, 1, 1] (ground truth labels of input sequence)
[1, X, 3, 1, 2, 1, Y] (labels as extracted by the rule-based approach)

在上面的示例中，基于规则的系统能够从输入中提取除两个标签之外的所有标签。也就是说，只有X并且Y仍然需要通过机器学习方法来确定。

是否有已知的方法或算法将基于规则的系统提取的标签合并到机器学习过程中，而不是从头开始运行序列标签算法？直观地说，来自基于规则的系统的附加信息应该使机器学习算法“更容易”填充剩余的插槽。