为什么离散余弦变换可能无法保持局部性

信息处理 语音识别 语音处理 mfcc 演讲 dct
2022-02-25 20:45:42

在论文Convolutional Neural Network for Speech Recognition 中,他们说

在此处输入图像描述

我不明白突出显示的句子。

2个回答

在类似频率的变换(傅里叶、离散余弦、沃尔什)中,通常以一系列系数结束,这些系数在基向量(时间段,图像中的二维补丁)的支持下解释每个频率分量。如果您有一个频率分量位于支撑的一半,而另一半为零,或者相反,您通常会得到相同的绝对值系数。MFCC 属于这种情况:

基于线性余弦变换的声音的短期功率谱。

关于局部性的信息通常可以在相位或系数的符号中进行追踪,但在复杂情况下难以阅读,并且不保留绝对值或幂。

首先,您对问题有一个误解,我建议您先对其进行编辑:论文https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/TASLP2339736-proof.pdf是根本不是由 Hinton 创作的。

二、他们的说法

至于频率,MFCC 的常规使用确实存在一个主要问题,因为离散余弦变换将频谱能量投射到可能无法保持局部性的新基中

他们只是没有正确地表达自己。问题不是 DCT,而是在 MFCC 方案中,您通常会在 DCT 结果中删除一些系数。从 DCT 后的 40 个变换系数中,您只需取 13 个并丢弃其余的。他们取而代之的是全部 40 个,并且不应用 DCT 变换来获取更多信息。但他们没有解释清楚,他们的“地方性”完全没有意义。