如何理解 HMM 中的标签偏差问题?

机器算法验证 机器学习 隐马尔可夫模型 图形模型
2022-04-06 06:10:04

如何理解隐马尔可夫模型中的标签偏差问题?为什么 CRF 能够解决这个问题?

4个回答

标签偏差对 HMM 来说不是问题,因为输入序列是由模型生成的。通过全局归一化,CRF 模型避免了这个问题。

基于 Lafferty, J. 等人的“条件随机场:用于分割和标记序列数据的概率模型”的第 2 节,

我认为这是“具有单个传出转换的状态有效地忽略了他们的观察。更一般地说,具有低熵下一个状态分布的状态将很少注意观察”。

老实说,我不太确定这是否是标签偏差问题。因为,我不知道为什么这是一个问题。不是从训练数据中推断出下一个状态分布吗?下一个状态分布的熵如此之低,因为这就是数据所具有的……那么问题不在于模型……而是数据的……

HTH。

假设一个为命名实体识别而开发的简单有限状态机。

在这些类型的机器中,具有单个传出转换的状态有效地忽略了他们的观察。换句话说,具有单个转换的状态只需移动到下一个状态而不考虑它们当前的观察。更一般地,具有低熵下一个状态分布的状态将很少注意观察。

参考:

JD Lafferty、A. McCallum 和 FCN Pereira,“条件随机场:用于分割和标记序列数据的概率模型”,第十八届机器学习国际会议论文集,ser。ICML '01,美国加利福尼亚州旧金山:Morgan Kaufmann Publishers Inc.,2001 年,第 282-289 页,ISBN:1-55860-778-1。[在线的]。可用:http ://dl.acm.org/citation.cfm?id=645530.655813 。

CRF 是 MEMM 的解决方案,而不是 HMM 的解决方案。在马尔可夫模型中,标签偏差不是问题,因为输入序列是由模型(Farhana Liza)生成的。在 MEMM 中,在计算转移概率时,从每个位置(AKA 状态),概率总和为 1。那么问题是什么?假设我们有一个非常不可能发生的状态,但是当它发生时,它很有可能(甚至 1)会再次发生。现在,如果我们有一个很长的状态链,即使它是不太可能发生的状态,也有更高的概率永远保持在那个位置!

在 CRF 模型中,我们使用 GLOBAL NORMALIZATION,它会处理它并将所有转换概率总结为 1。

祝你好运!