计算音频频谱图的最佳实践是什么?

信息处理 fft 声音的 Python 频谱图
2022-02-09 20:06:04

如果通常用 fft 的平方幅度定义频谱图。然而,在许多实现中,似乎人们只使用没有平方的幅度。

此外,按照惯例,音频信号的缩放比例在 -1 和 1 之间。这种缩放通常需要在实现中进行补充步骤,例如在 python 语言中,这并不总是如此。

最后,计算音频频谱图的最佳实践是什么?- fft 的平方幅度/fft 的幅度?- 整数音频值/缩放(-1 到 1)音频值

编辑

正如评论所说,如果目的是绘制频谱图的图像,这些问题没有任何后果。

但是,我想使用频谱图的矩阵作为声音分析和识别的入口点。在这种情况下,计算过程很重要,我对实现如此频繁地不同感到好奇。

1个回答

我认为,也许,该声明应该颠倒过来:许多实现“只是”使用平方幅度。这是因为实值信号的 DFT 通常是复数,因此平方幅度只是复共轭的乘积,例如:

X * (f) · X(f)

这需要比幅度更少的计算,幅度将遵循相同的算法,但具有后续的平方根。

DFT 的平方幅度正式称为Power Spectrum.