我目前正在研究对长度为 1024 个元素并以 120 kHz 采样的短非平稳音频信号进行分类的任务。
我想知道是否有任何特殊的技术或模型可以对此类信号进行分类。据我所知,这类任务的大多数解决方案都依赖于 FFT/MFCC 或频谱图的计算。但是由于特征的非平稳性质,我无法计算统计上可靠的基于频率的特征。
使用样本级 CNN 架构的基于原始波形的音频分类一文中描述的 CNN 方法也显示了有希望的结果,但仍然不够好。
谁能建议我另一种方法或想法从哪里开始?将不胜感激任何帮助!
我目前正在研究对长度为 1024 个元素并以 120 kHz 采样的短非平稳音频信号进行分类的任务。
我想知道是否有任何特殊的技术或模型可以对此类信号进行分类。据我所知,这类任务的大多数解决方案都依赖于 FFT/MFCC 或频谱图的计算。但是由于特征的非平稳性质,我无法计算统计上可靠的基于频率的特征。
使用样本级 CNN 架构的基于原始波形的音频分类一文中描述的 CNN 方法也显示了有希望的结果,但仍然不够好。
谁能建议我另一种方法或想法从哪里开始?将不胜感激任何帮助!
当您尝试对顺序数据进行分类时,您可以尝试简单的循环神经网络或其高级版本的 LSTM——但由于您的信号很短,RNN 应该可以正常工作。
你可以阅读这篇关于使用 LSTM 进行声音分类的论文和这篇 中篇文章