信息处理 - “图像合成”如何工作？ - 吾爱随笔录

“图像合成”如何工作？

信息处理图像处理 fft 声音的

2022-02-18 13:44:27

我对 Metasynth 等音频合成器中的“图像合成”如何工作感兴趣。

图像合成是将图片读入程序并“解释”成声音。

但它是如何工作的？

1个回答

Aphex Twin – Windowlicker（1999 年单曲）中有类似的东西，在带有对数频率轴的频谱图中可见：

根据专辑的维基百科页面，图像到音频的转换是使用 Metasynth 进行的。我不知道 Metasynth 的具体细节，但可以通过计算每个像素列的离散傅里叶逆变换 (IDFT) 并连接得到的时域帧来实现类似的效果。为了使它听起来更平滑，时域帧可以交叉淡入淡出，频率仓的相位可以随机化，以分散频率相位匹配的时间。图像可以被扭曲，使得垂直坐标对应于对数频率标度。

问题可以表述为：如何创建一个音频信号来产生一个看起来像输入图像的频谱图。为了进行非常好的转换，可以使用类似的方法，如时间尺度/音高修改。其中一些试图跨时域帧保持频率的相位相干性（尤其是那些落在频率区间之间的频率）。其中一些试图保持瞬态的时间相干性——时间域比频域更集中。

其它你可能感兴趣的问题

上一篇逆滑动 DFT 下一篇在没有 ROC 的情况下寻找拉普拉斯变换