自相关用于将信号与自身的延时版本进行比较。如果信号是周期性的,那么如果时延是整数个周期,则该信号将与其自身的一个版本完全相关。这一事实,加上相关的实验,暗示了自相关可能是人类听觉信号处理的一个重要部分。
ACF是一种将音乐可视化的简单方法,其效果出人意料地好。或许ACF最让人意想不到的属性是,它将主观的“和声水平”从音乐准确地传递到了图像中。如果你仔细想想,这几乎是一项不合理的资产。下面的图片是以极坐标表示的ACF高度图。
与你可能认为的相反,我们的耳朵似乎并不依赖于类似于FFT的过程来提取孤立的频率。相反,我们的耳朵会检测信号中的周期性部分,尽管在大多数情况下,这些周期性部分与FFT频率非常匹配。有一个简单的实验可以证明这一点:
在FFT图像上可以清楚地看到,A信号是纯正弦音调,而B是混合音调。尽管B中的每一个音调都高于A,但我们的耳朵认为B的音调较低。如果我们绘制这两个波形图,我们会发现A在20ms的窗口中有大约9个峰值,而B只有5个。“峰值”的定义是没有意义的,但这并不能阻止我们的耳朵计算它们,并使用“每秒峰值的数量”来代替音调高度。
ACF检测到这些峰值。ACF看到在B[t]*B[t+Shift]达到最大时有5个等间隔的时间移位,因此在ACF输出上我们将看到这5个峰值。
考虑到我厚颜无耻地偷了上面实验的插图,我觉得有义务推荐插图出自的那本书:听觉神经科学。
ACF的一个缺点是它降低了输入信号的相位分量,因此ACF是不可逆的。这意味着,只呈现ACF的图像会丢失声音中约50%的信息,而这50%是重要的,例如,从录制的语音中去掉相位会使该语音无法辨别。现实世界中的声音,如语音,大量使用细微差别的幅度和相位调制。ACF抓住了前者,但忽略了后者。
因此,ACF包含与光谱密度S(众所周知的谱图)完全相同的信息。
如果您熟悉ACF的定义,您会注意到我应该在最后一步中使用逆FFT。这是没有错的。逆FFT可以计算为FFT[X*]*,其中X*是复共轭,但是因为S[i]是实值的(实际上是正的),所以共轭对它没有影响,而且由于ACF在这种情况下也是实值的,所以第二个共轭也不起作用。
ACF是一个周期且均匀的函数,因此可以在极坐标中自然渲染。在大多数情况下,ACF具有非常精细的结构。下面是一些例子,其中红色=ACF>;0,蓝色=ACF<;0。
看第一个例子,我们可以看出,在一个20ms的声音样本中有5个突出的峰值,对应于250 Hz。这意味着我们的耳朵必然会感觉到这个声音是250赫兹的音调,不管它的频谱图是怎么说的。如果它是一个纯250赫兹的音调,我们会看到r=cos(250赫兹*t)线的完美圆形,但这里不是这样:我们看到5个峰值被小波调制:中间有一个大的小波(由3个更小的小波组成)和4个更小的小波。我们的耳朵会听到大小波作为250赫兹音调的第二次谐波(即,它将是一个幅度较小的500赫兹音调),而4个小波作为第五次谐波(1000赫兹),音量几乎听不见。除此之外,500赫兹的谐波还受到3个小波的调制,这意味着我们会听到1500赫兹的声音,几乎听不见。我们甚至不用看谱图或听到声音就能说出这一切。
音乐是一种暂时的装饰品。装饰品有很多种,例如17种壁纸花纹,但很少有看起来像音乐的。然而,有一种特别的装饰品与音乐非常相似--我指的是那些“曼陀罗”形象。我不知道这些图片是如何制作的,也不知道为什么,但我注意到了这些图片和音乐之间的联系:
第一个明显的观察是,曼陀罗是在极坐标下绘制的,是2*Pi周期的。声音也是周期性的,所以我认为这两个事实是相关的。
第二个观察结果是,这些图像上的图案是在放射轴上进化的。音乐也是如此,它是一系列不断演变的声音模式。
第三个观察结果是,2*PI周期函数通常对应于一组频率。我们通常用FFT来提取频率,再用一次FFT来恢复2*PI周期函数。因此,曼陀罗的一个径向切片就可以编码一组频率。如果这是正确的,曼陀罗实际上就是一张老式的黑胶唱片。