||
小朋友小时候,我们请了一位家里外婆辈份的亲戚帮忙来照顾。虽然长我一辈,年龄却比我小。不过还好,亲戚家在湖南省的华容县,那边的人管这个辈份的都称为“家(Ga)家(Ga)”,所以,叫起来也不会太尴尬和别扭,反正外人听不懂。小朋友学语言很快,一切都很正常。可是GaGa老是叫不好,总发成DaDa。她自己也没觉得有什么不对,我们纠了几次,没什么效果,只好听之任之了。还好,随着小朋友一天天的长大,终于有一天她自己纠正过来了。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~
上一篇说过,人在辨声方面有“鸡尾酒会效应”的能力。一个人不需要借助视觉的帮助就可以在酒会中选择性地聆听需要听的声音,而把其他声音弱化甚至屏蔽掉。谷歌则尝试结合视频与语音来提高人声分离的性能。那么,视觉与听觉之间会不会相互影响呢?
一、视听错觉
第一个证实有相互影响的实验来源于一次意外。早在20世纪70年代中期,英国Surrey大学的心理学家Harry McGurk和他的助手John MacDonald做了个实验。他们用不同的口语因素给视频配音,想研究不同时期儿童对语言的理解程度。在配音的时候,一个本应发“ga”的音节错配成了“ba”的音,测试者听完后坚持认为听到的音节是第三节音素“da”而不是视频中说出来的原音节。对于这个意外,他们分析后认为,在听觉系统和视觉系统收集的信息存在相互矛盾时,人类会优先相信视觉通道传输进来的信息。因为与视觉系统相比,听觉系统获得的信息没有那么强的确定性。他们将这一现象称“麦格克效应”(McGurk effect)。该成果发表在1976年的《自然》杂志上[1]。
麦格克效应: https://v.qq.com/x/page/i0624sd97n4.html
随着研究的深入,科学家们发现这种视听觉相互影响的“麦格克效应”在很多方面都有体现。如儿童早期发音的学习上。如果视觉和听觉没有得到好的整合,儿童就容易产生错误的发音。另外,视力不好的人,如果摘下眼镜,也很可能出现“麦格克效应”,会感觉自己的听力也同时下降了。
2007年,Körding等进一步研究了视听觉相互影响的情况。他们在5个平行的位置上均放置了发声和闪光设备,然后在不同或相同的位置同时给出声音和闪光,让19位测试者判断发声的位置和闪光的位置。实验设置和结果如图1所示[2]。
从图上可以看出,当光和声音分别处理、没有相互干扰时,19个测试者的反应是稳定且合乎正确分布的。而当灯光和声音同时出现后,能看出1)闪光位置的判断几乎不受影响,和没有声音的时候分布一致;2)声音的位置影响明显。尤其最后一列,其声音似乎容易被光线影响,而形成轻微向左的误判。这表明声音的不确定更多一些,更容易被闪光影响。所以,这两个实验都证明了,视觉确实会影响听觉的认知。
��
图1:视听觉线索的组合[2]。(a): 实验架构。每个测试,一个视觉和一个听觉刺激同时被给出,测试者通过按按钮来报告感知的视觉刺激和听觉刺激位置。(b): 视觉对在中间位置发出的听觉刺激的感知位置影响被显示。不同颜色对应在不同位置的视觉刺激(从左到底,颜色从暖色调转为冷色调)。只有声音的模型以灰色表示。C) 对于35种刺激条件,测试者(实线)以及理想观测者的预测(破折线)的平均响应。左边第一列虚线为五个闪光位置;第二列为无音频的响应,从左至右的折线表示响应位置。在无音频时响应很精确。 上方第一行指五个声音位置;第二列为无视频响应,从左到右的折线表示响应情况。
二、无限音阶的拓扑
听觉反过来会促进视觉上的感知。我们在观赏影视作品时经常能感受到。比如在家看恐怖电影时,一到令人发悚的情节, 胆小点的就会情不自禁把音量关小或干脆把耳机拿下来,说明视听觉的双重作用确实增强了影片的恐怖程度。
另外,在音乐中,还有个奇怪的旋律。他通过两个或多个声部的交替,能产生无穷递进的感觉,让人误以为声音一直在往高处走。这就是谢帕得音阶(Shepard tone),也称为无限音阶。
相比音乐的历史,这种音阶出现的时间并不早。它是美国斯坦福大学的心理学家谢帕德在1971年的心理学实验中发明的,所以称为谢帕得音阶。它由不重合的多个八度音组合在一起,形成多个声部。2017年克里斯托弗•诺兰执导关于1940年二战历史事件“敦刻尔克大撤退”的电影《敦刻尔克》时,为了能为海边撤退的场景来营造一种无始无终的紧张感,便送给作曲家汉斯•季默一个手表连续敲击的录音。季默受此启发,便以与之类似的谢帕德音阶为基础,创作了电影的背景乐。事实证明,这段配乐非常完美地加强了撤退时的紧张感,让观众有了身临其境、坐立不安的感觉。
谢帕德音阶:https://v.qq.com/x/page/g05479i6hs5.html
为了帮助理解,我写了个类似的两声部例子来解释谢帕德音阶的构成,如图2所示。其中,第一列的低音部是慢慢渐强,而第二列的高音部分则慢慢减弱,到最弱音时,再同时增加一个相同音量但低八度的音进来。按此规律,两列的旋律一直循环播放。结果,在第一列的低音到最强处,刚好能接上第二列高音的最弱音。于是两个声部就实现了自然的过渡,低声部的过渡到高声部,高声部也过渡到低声部。结果,如果按此规律增加更多的声部进来,那么,旋律中总可以一直听到至少两种声调在同时升高。而大脑会形成听觉错觉,认为这些音调一直在往上走。
图2 两声部的无限循环,左列为低音的渐强,右列为高音的渐弱;左列到B4时,刚好能接上右列的C5;同理,右列弱至B5时,会再增加一个同样小声的B3音进来,从而可以自然过渡到左列的C4上。
有趣的是,这种循环,我们不仅能在音乐中看到,还能在很多方面见到类似的。比如艺术作品中,前面提到过的荷兰著名画家艾舍尔就画过一系列无限循环的作品。如图3所示的水的循环流动、楼梯的“循环”、还有画里画外的蜥蜴。这些都是现实世界不可能实现的无限循环。
图3 艾舍尔的各种循环画: 无尽的水流;无尽的楼梯;画里画外的蜥蜴
而在日常生活中,理发店的旋转灯筒也有着无限循环的影子,如图4所示。这种灯筒何时出现的无从考证,说法很多,有说是世界大战时期,有的是大革命时期。 一种说法是为了纪念一位为国家(法国)做出贡献的理发师,旋转灯筒的红白蓝三色其实是法国的国旗。
图4: 理发灯箱与针式打印机色带
另一种说法是:据说在中世纪,因为对人体的认识不足,人们认为生病是体内元素不平衡造成的。只有释放出多余的元素,才能恢复健康。血液显然是最容易放出的一种元素。不过很多医师觉得这个工作比较低贱,不愿意动手放血,就委托理发师代办。所以,理发师就选三色柱作为他们行医和理发的标志。其中,三色柱中的红色代表动脉,蓝色代表静脉,白色代表纱布。他们甚至还发明了专门用于切割血管的刀片,叫“柳叶刀”(Lancet)。这也是现在一本顶级医学期刊的名字。放血疗法也一度成为非常流行的治疗方法,就连美国总统华盛顿也是因感冒想用此法治疗,结果于1799年死于失血性休克。
不管来自何种典故,灯箱的旋转,会让人产生循环往复、一直向上的错觉。这是在理发店的无限循环。
事实上,这种循环性,我们在上世纪曾广泛使用、现在主要用于打印各种增值税发票的针式打印机上也能见到。大家可以拆开色带看看,就会发现色带两面都是一直在交替着打印的,如图4,因为这样可以提高色带的利用率。这是打印机里的无限循环。
这种循环的几何结构有个数学味更浓的名字,叫莫比乌斯带(Mobius Band),它可以将纸按图5(a)所示方法折成。类似地,普林斯顿大学教授、作曲家和音乐理论专家Dimitri Tymoczko在假定十二音律是一个圆形循环的基础上,认为两音符组成的音程关系可以表示成如图5(b)的莫比乌斯带而非甜甜圈的几何结构[3,4]。