鸟歌声音表显示明显的绘图模式

2021-05-07 18:22:16

基于典型的FFT基谱图在48 kHz音频上使用1024个箱,每像素约为50 Hz步骤。大多数有趣的音频活动发生在3 kHz以下,因此每像素50 Hz仅为该区域提供60像素。结果,频谱图是像素化的。获得高级别谱图的一种方法是使用CWT(连续小波变换),但它实现了凌乱。另一个技巧是使用常规FFT偏移1/2像素(达25Hz):DFT移位定理通过将输入信号乘以Exp(-i * pi * k / n)来实现这种频率转换。时间方向的光滑度更容易实现:1024箱窗口可以通过任意少的时间步长推进。

H是彩虹调色板的加权和,其中记录缩放的FFT幅度是重量。

s是1.0 - FFT [i] ^ 2 / max FFT ^ 2,即最大FFT幅度有0个饱和度或刚刚白色。

鸟类歌曲录音来自www.fssbirding.org.uk/sonagrams.htm。与乐器不同,鸟类似乎似乎不打造复杂的多层谐波模式。相反,它们仅使用基地(基本)频率创建复杂的模式。主绘图上方的“云”是第二次谐波。这些超声图与其他声音不同,仿佛鸟儿“绘制”的声音,这些声音会及时向后飞行。

将此与CWT和标准FFT进行比较(无重叠帧,固定频率集):

用Soundshader.github.io/?s=CWT获得CWT谱图。尽管此CWT实现运行GPU,但这种“高级”FFT在JS上运行,CWT速度约为50-100倍。

乐器通常具有这种多级谐波结构。长笛是最简单的仪器之一,前2个谐波占据频谱。然而,要呼叫长笛声音很简单,这将是一个错误:如你所见,每个级别都有自己的常规模式,不能用简单的正弦音调混合重新创建。

viloin是最令人兴奋的:在8和9级,它创造了一个复杂的装饰。 我不知道它是否是仪器的特征或缺陷。 有趣的是,我们的耳朵在不同地板上的所有这些不同的装饰品上折叠整个20层谐波塔。 明亮的线条是元音夹层:它们的一对或三倍唯一地识别元音。 每个绿色列是一个词,通常由两个元音组成。 水平杆是钟声。 元音具有相当复杂的结构,看起来像一个带有乐器的鸟类歌曲,因为它们也有谐波。