所以我正在开发一个程序来比较一个单词的发音之间的相似性,首先我得到了音频文件,我在它上面使用 FFT 来获得频率阵列上的幅度,然后我只是将所有东西平方得到能量谱密度其中。可以从我自己说的同一个单词的 4 个样本的频率中得出的图表看起来非常相似,如我在此处包含的图片所示。所有 4 个样本都有 2000 个值,代表从 0 到 ~800Hz 的频率。
但是因为即使是我说这个词 4 次,这个词的频率也不能每次我说那个词时都一样,这些图表看起来很相似,但它们之间有一些不同的样本,比如第二个最高点第一张图在数值 1150 处,第二张图在 1124 处,第三张在 1132 处,第四张在 1160 处,第一个峰值发生同样的事情。
所以我的问题是:我如何实际比较这 4 个图表以显示它们有多相似?因为我第一次被建议做的是使用均方误差,但由于各地略有不同,它们效果不佳。
