“图像合成”如何工作?

信息处理 图像处理 fft 声音的
2022-02-18 13:44:27

我对 Metasynth 等音频合成器中的“图像合成”如何工作感兴趣。

图像合成是将图片读入程序并“解释”成声音。

但它是如何工作的?

1个回答

Aphex Twin – Windowlicker(1999 年单曲)中有类似的东西,在带有对数频率轴的频谱图中可见:

Aphex Twin - Window Licker 的频谱图

根据专辑的维基百科页面,图像到音频的转换是使用 Metasynth 进行的。我不知道 Metasynth 的具体细节,但可以通过计算每个像素列的离散傅里叶逆变换 (IDFT) 并连接得到的时域帧来实现类似的效果。为了使它听起来更平滑,时域帧可以交叉淡入淡出,频率仓的相位可以随机化,以分散频率相位匹配的时间。图像可以被扭曲,使得垂直坐标对应于对数频率标度。

问题可以表述为:如何创建一个音频信号来产生一个看起来像输入图像的频谱图。为了进行非常好的转换,可以使用类似的方法,如时间尺度/音高修改其中一些试图跨时域帧保持频率的相位相干性(尤其是那些落在频率区间之间的频率)。其中一些试图保持瞬态的时间相干性——时间域比频域更集中。