如果通常用 fft 的平方幅度定义频谱图。然而,在许多实现中,似乎人们只使用没有平方的幅度。
此外,按照惯例,音频信号的缩放比例在 -1 和 1 之间。这种缩放通常需要在实现中进行补充步骤,例如在 python 语言中,这并不总是如此。
最后,计算音频频谱图的最佳实践是什么?- fft 的平方幅度/fft 的幅度?- 整数音频值/缩放(-1 到 1)音频值
编辑
正如评论所说,如果目的是绘制频谱图的图像,这些问题没有任何后果。
但是,我想使用频谱图的矩阵作为声音分析和识别的入口点。在这种情况下,计算过程很重要,我对实现如此频繁地不同感到好奇。