数据挖掘 - MS-TDNN 是如何工作的？ - 吾爱随笔录

数据挖掘神经网络

2022-02-06 17:16:00

多状态时间延迟神经网络 (MS-TDNN) 在

Haffner，Patrick 和 Waibel，Alex：用于连续语音识别的多状态时间延迟网络。在神经信息处理系统的进展中，1992 年。

它们是 TDNN 的扩展。TDNN 是用于自动语音识别 (ASR) 的卷积神经网络，其中卷积随时间发生。

MS-TDNN 的目标似乎是摆脱 ASR 中的混合方法，在这种方法中，您需要动态编程/HMM 来分块音频流，然后使用神经网络来识别音素。不知何故，MS-TDNN 似乎也可以进行分割。

我不明白怎么做。有人可以向我解释一下吗？

（相关的问题：MS-TDNNs 是循环网络吗？“多态”这个名字究竟是从哪里来的？）

2个回答

所以我想你明白 MS-TDNN 有两个部分：一个传统的TDNN，它计算每个帧的状态概率，以及一种在它上面将几个帧的状态链接到一个单词的感知器。后面的部分是做分割。它的连接没有经过训练，只是用于运行 BP 和训练 TDNN。

分割是通过其他算法获得的（我不记得确切，但是像动态时间扭曲一样）。在正常的 DNN-HMM 混合系统中，DNN 被单独训练以预测每一帧的正确状态。误差函数是在帧级别计算的！

这不是最优的，因为我们不太关心每个状态是否正确，而是最终文本。WER 是按世界水平计算的。MS-TDNN 试图通过增加这个额外的层来解决这个问题，该层允许将基于单词级别的错误传递给 BP。这与今天称为序列训练的方法非常相似。

TDNN 和 MS-TDNN 都不是循环网络。

如果您对不需要 HMM 的 RNN 和 ASR 系统感兴趣，我建议您查看确实会自动学习对齐的 CTC 目标。

不，MS-TDNN 不进行分割。您仍然需要一个“搜索”算法，它可以为您提供最佳候选词和分段。搜索由 DTW 完成，通常由 N-gram 引导。

我从我的一篇论文中得到了一张图片——我得去搜索它。

其它你可能感兴趣的问题