浅谈正弦波语音

2020-05-25 14:31:53

正弦波语音是哈斯金斯实验室最先开发的一种人工退化语音形式。下面描述几个关于正弦波语音感知的开创性实验:

Remez,R.E.,Rubin,P.E.,Pisoni,D.B.,Carrell,T.D.(1981)没有传统言语线索的言语感知。科学,212,947-9。普普梅德。

在这项工作中,雷梅兹和他的同事们展示了正弦波演讲句子被感知的方式发生了戏剧性的变化,这取决于听者特定的先验知识。例如,听听这个声音:

大多数天真的听众听到这是一组同步的口哨声,或者说是科幻小说中的声音。但是,对于以前听到过此声音的听众:

再次聆听正弦波语音会产生完全可理解的口语句子的截然不同的感觉。这种感知上的戏剧性变化是感知洞察力或突出性的一个例子。我们争辩说,这种形式的弹出是一个自上而下的感知过程的例子,这种过程是由关于可能作为语音听到的声音的更高级别的知识和预期产生的:

戴维斯,M.H.,约翰斯鲁德,I.S.(2007)";“听觉语言声音:自上而下对听觉和言语知觉之间的界面的影响”,“听觉研究”,229(1-2),132-147。PDF格式。

下表中还有另外四对正弦波和清晰语音示例:

当你听这四个例子的时候,你可能会发现你在第一次听正弦波演讲时会更好地理解。这是感性学习的一个例子。在听过几个正弦波演讲的例子后,你的知觉系统已经调到了这种失真形式,以便能够更清楚地感知新的正弦波演讲句子。

据我所知,还没有人做过对照实验来证明弹出有助于学习正弦波语音。然而,对于另一种形式的失真(噪声声码语音),我们已经证明了弹出增强了知觉学习,从而使人们更快地学习理解新的失真句子。这些用声码语音进行的实验表明,知觉学习也是一个自上而下的过程:

戴维斯,M.H.,Johnsrude,I.S.,Hervais-Adelman,A.,Taylor,K.&;McGettigan,C.M.(2005)词汇信息驱动对扭曲语音的知觉学习:来自对噪声语音编码句子的理解的证据。实验心理学学报:总论,134(2),222-241。PDF格式。

正弦波语音是通过使用共振峰跟踪器检测发音中发现的共振峰频率,然后合成跟踪这些共振峰中心的正弦波来产生的。这一点如下图所示:

存在许多用于生成话语的正弦波版本的软件。上面显示的这些句子是使用PRAAT软件和克里斯·达尔文编写的脚本生成的。还有由丹·埃利斯(Dan Ellis)编写的生成正弦波语音的Matlab代码。

已经记录在案的视觉领域中有许多感知洞察力的例子。例如,将灰度图像转换为高对比度的黑白图像可以产生类似于正弦波语音的现象。这种操纵最初是由克雷格·穆尼(Craig Mooney,1957)描述的。

单击图像以接收有关此图像内容的视觉提示。纳瓦·鲁宾(Nava Rubin)在本文中更详细地讨论了这种形式的视觉感知洞察力:

鲁宾,N.,Nakayama,K.和Shapley,R.(2002),“洞察力在知觉学习中的作用:来自虚幻轮廓知觉的证据”。在:知觉学习中,Fahle,M.和Poggio,T.。(主编),麻省理工学院出版社。

这就是上面的示例图像的来源。我会热衷于听到其他感官形式的知觉洞察力的形式。