许多研究将 MFCC 以及 MFCC delta 和 double delta 直接馈送到 CNN 以进行音频分类。我的问题是,MFCC Deltas 是否与 MFCC 矩阵连接在一起?大多数论文只是说明他们使用MFCC + MFCC Delta + MFCC Double Delta过,加号留待解释!
将 MFCC 和 MFCC Delta 功能与 CNN 一起使用
数据挖掘
美国有线电视新闻网
音频识别
2022-02-25 02:08:38
1个回答
是的,delta 和 delta-delta 变体是串联的。但是,详细信息可能会因模型类型而有所不同:
如果模型采用一维(特征)输入(例如多层感知器、逻辑回归、随机森林等),则连接增量系数。所以特征是[mfcc1,mfcc2...,dmfcc1,dmfcc2...]。
对于像 RNN 这样需要 2d(时间、特征)输入的模型,它会在特征轴上连接起来。
对于像 CNN 这样采用 3d(时间、特征、通道)输入的模型,delta 系数通常在通道维度上是它自己的平面。这确保了 delta MFCC 系数与相应的 MFCC 系数在同一时间 x 特征位置,这是卷积核最容易利用的。