MS-TDNN 是如何工作的?

数据挖掘 神经网络
2022-02-06 17:16:00

多状态时间延迟神经网络 (MS-TDNN) 在

Haffner,Patrick 和 Waibel,Alex:用于连续语音识别的多状态时间延迟网络在神经信息处理系统的进展中,1992 年。

它们是 TDNN 的扩展。TDNN 是用于自动语音识别 (ASR) 的卷积神经网络,其中卷积随时间发生。

MS-TDNN 的目标似乎是摆脱 ASR 中的混合方法,在这种方法中,您需要动态编程/HMM 来分块音频流,然后使用神经网络来识别音素。不知何故,MS-TDNN 似乎也可以进行分割。

我不明白怎么做。有人可以向我解释一下吗?

(相关的问题:MS-TDNNs 是循环网络吗?“多态”这个名字究竟是从哪里来的?)

2个回答

所以我想你明白 MS-TDNN 有两个部分:一个传统的TDNN,它计算每个帧的状态概率,以及一种在它上面将几个帧的状态链接到一个单词的感知器。后面的部分是做分割。它的连接没有经过训练,只是用于运行 BP 和训练 TDNN。

分割是通过其他算法获得的(我不记得确切,但是像动态时间扭曲一样)。在正常的 DNN-HMM 混合系统中,DNN 被单独训练以预测每一帧的正确状态。误差函数是在帧级别计算的

这不是最优的,因为我们不太关心每个状态是否正确,而是最终文本。WER 是按世界水平计算的MS-TDNN 试图通过增加这个额外的层来解决这个问题,该层允许将基于单词级别的错误传递给 BP。这与今天称为序列训练的方法非常相似。

TDNN 和 MS-TDNN 都不是循环网络。

如果您对不需要 HMM 的 RNN 和 ASR 系统感兴趣,我建议您查看确实会自动学习对齐的 CTC 目标。

不,MS-TDNN 不进行分割。您仍然需要一个“搜索”算法,它可以为您提供最佳候选词和分段。搜索由 DTW 完成,通常由 N-gram 引导。

我从我的一篇论文中得到了一张图片——我得去搜索它。