heruspex的个人博客分享 http://blog.sciencenet.cn/u/heruspex

博文

爱犯错的智能体 -- 听觉篇(一):听觉错觉与语音、歌唱的智能分析

已有 8750 次阅读 2018-10-22 08:14 |系统分类:科普集锦| 人工智能, 机器学习, 认知心理, 语音处理, 音乐分析

        京中有善口技者。会宾客大宴,于厅事之东北角,施八尺屏障,口技人坐屏障中,一桌、一椅、一扇、一抚尺而已。众宾团坐。少顷,但闻屏障中抚尺一下,满坐寂然,无敢哗者。

        遥闻深巷中犬吠,便有妇人惊觉欠伸,其夫呓语。既而儿醒,大啼。夫亦醒。妇抚儿乳,儿含乳啼,妇拍而呜之。又一大儿醒,絮絮不止。当是时,妇手拍儿声,口中呜声,儿含乳啼声,大儿初醒声,夫叱大儿声,一时齐发,众妙毕备。满坐宾客无不伸颈,侧目,微笑,默叹,以为妙绝。

       未几,夫齁声起,妇拍儿亦渐拍渐止。微闻有鼠作作索索,盆器倾侧,妇梦中咳嗽。宾客意少舒,稍稍正坐。

        忽一人大呼"火起",夫起大呼,妇亦起大呼。两儿齐哭。俄而百千人大呼,百千儿哭,百千犬吠。中间力拉崩倒之声,火爆声,呼呼风声,百千齐作;又夹百千求救声,曳屋许许声,抢夺声,泼水声。凡所应有,无所不有。虽人有百手,手有百指,不能指其一端;人有百口,口有百舌,不能名其一处也。于是宾客无不变色离席,奋袖出臂,两股战战,几欲先走。

       忽然抚尺一下,群响毕绝。撤屏视之,一人、一桌、一椅、一扇、一抚尺而已。 

                                                                        节选自《虞初新志》的《口技》,林嗣环 ()

Picture32.png

1 口技

       声音能刻画得如此妙不可言,听觉系统功不可没。就人而言,听觉系统由左右两只耳朵构成,一方面能帮助我们形成立体听觉,有助于辩识声音的位置,另一方面也方便我们在不喜听到某事时,可以一只耳朵进,一只耳朵出。它是除了视觉以外,另一个可以帮助我们实现远距离以及视觉系统不可用时识别目标的感知系统。比如《红楼梦》中描绘的“未见其人先闻其声”,便是林黛玉进贾府初见王熙凤的情形,朗朗的笑声瞬间就把王熙凤的形象树立了起来。另外,因为人的视觉接受外界信号是以光的速度完成的,而接收声音的速度则慢得多。所以,听觉系统还能帮助纠正视觉上的错觉。比如,有些人会看上去是非常的闪亮、聪明,这一印象会一直维持到听到他开口说话为止。于是,为了保证视觉与听觉美感上的“一致”,不少短视频APP提供了大量有特色的声音母带。这也是短视频大受欢迎的原因之一。因为对人类文明而言,听觉系统促进了智能体之间的交流和提升了精神生活的档次。

Picture33.png

2 耳朵结构图

       要更具体地了解听觉系统,可参考图2它包括用于收集声音的耳朵、用于声音传递的外耳道、用于将声音变为振动频率的耳膜、耳蜗内用于将声音转为电脉冲的毛细胞、以及传输电脉冲的听神经和处理声音的听觉中枢。这里毛细胞是听觉细胞,包括3500个内毛细胞和12000个外毛细胞,以分别处理不同频率的声音。其中,低音部的毛细胞多,高音的相对较少。所以,对年纪大的人来说,首当其冲损失的是高频部分的听力能力。

 虽然人的听觉系统中的毛细胞数量和布局,和人的视网膜有得一比。 但由于现有传感器设备的限制, 机器在模仿时都将采集到的声音最终简化成一条曲线似的信号。好处是,多媒体研究最开始着手的方向,就是数字音频处理。随着计算机处理能力的增强,才逐渐将研究重点转移到具有二维结构的数字图像上来。在1995年至本世纪初期,曾经有一段时间,计算机学科中一大半的研究生从事的研究方向都与数字图像处理密切相关。说不定,未来等量子计算机研制成功,基本的计算基元从二进制转成连续值后,也许得考虑量子语音处理、量子图像处理了。

 撇开这段历史不表,因为声音是多源的、随时间变化的,当声音压缩变成一维的语音信号后,语音处理的难度便大了不少。 早期的语音处理研究是举步维艰的。曾记得95年左右的微软曾出过一版语音识别软件,识别的性能远低于期望,很快就被市场淡忘。当年在连续语音识别的主要方法,包括统计学领域60年代、后在70年代中期被挪到语音领域的隐马尔可夫模型, 和多个高斯分布组合的多元混合高斯模型。其中,隐马尔可夫模型假定了声音时间序列的前后时刻具有相关性,即马尔可夫过程。同时,假定这些相关性由一组隐含的变量控制。将这些性质构成网络后,便形成了隐马尔可夫模型。尽管模型结构有细微变化 ,但主体思想仍旧,曾在语音分析领域引领风骚数十年。一直到近年来的深度学习的出现,语音识别也由于预测性能的显著提高而随之走向全面实用化。

  但实用化并不意味着听觉系统就完全被了解清楚了,里面仍有许多不明的机理,如听觉错觉。同时,语音识别本身也还存在一些目前难以解决的问题。第三,人类在说话以外,还发展了音乐这样独一无二的能力,尤其是唱歌。理解唱歌,对于理解智能体本身也是有帮助的。本节中,我将从此三方面展开介绍。 

一、听觉错觉

  听觉系统和视觉系统一样,虽然有效,但同样存在不少有意思的错觉。这些错觉既有来自听觉系统的,也有来自大脑生理或心理感受的,还有来自外部经过特殊设计诱导的。

  来自听学系统的通常是功能性退化引起的。举例来说,当外界不存在声源输入时,而人又能感受到声音信息时,就是听觉系统本身出了问题,可大可小。比较常见的是耳鸣,一些神经官能症患者或神经衰弱的人会比较容易出现这种问题。它产生的原因,一直是众说纷纭,有认为是大脑听觉中枢存在问题所致,也有认为与传导声音的神经通道在无信号时的活动有关。后一观点里,比较有意思的一个研究成果是美国约翰-霍普金斯小组德怀特彼格斯等最近做出的。他们在听力还没发育成熟的小鼠上进行了实验,发现耳鸣的发生可能与听觉系统早期阶段,非感觉性毛细胞,即支撑细胞有直接联系。他们认为,在听觉系统未成熟前,这些支撑细胞会本能释放ATP能量分子(腺苷三磷酸),形成电信号输入大脑。这些电信号在发育初期听起来就象是噪声,可用于帮助听觉系统尽早做好准备。从我的感觉来看,这种准备就像听觉系统的自检,和人晚上睡觉偶尔会蹬腿是为了自检人是否还活着一个道理。而到长大以后,这种自检偶尔还会被触发。频率发生过高的则有可能形成持续性耳鸣的疾病。所以,了解耳鸣的形成机理也许有助于理解人听觉系统的早期发育。

   除了这种耳鸣外,人甚至可以在不使用听觉系统时,也能感受到声音。比如, 你沉思的时候,那个在你脑袋里说话的声音,是谁发出的呢?

   另一种错觉是人对声音美感的感知。它包括说话声和唱歌两种错觉。

   在日常生活中,说话人错觉更为常见。人们总是对自己的声音比较满意,直到听到通过录音方式播放出来的声音后,才发现与自己以为听到的还有点差距,有时会觉得录音机里播出来的声音会更难听一些。其原因有两个,一是因为人在听自己声音的时候,声音是通过颅骨传至内耳再进入听觉中枢的。而其他人听到的声音,与录音机通过空气介质传播获得的相同。传播媒介不同,自然会有些差异。另一个原因可能是人类会习惯把自己的声音标定得更美好一些。在2000年两位心理学家DunningKruger提出的、获得了《搞笑诺贝尔心理学奖》的达克效应(Dunning-Kruger Effect)可以部分解释这一现象。简单来说,人容易沉静在自我营造的虚幻优势之中,过高估计自己的能力,属于一种认知偏差。因此,人也会在大脑中自动地美化自己的声音。 

二、语音识别及相关应用

       抛去错觉不提,语音识别本身有许多细分和衍生的应用值得研究。应用面最宽的当数语音转换文字,可以是同一语种,也可以是跨语种。同语种的转换,在深度学习出来后,性能确实有了一个质的飞跃, 在识别性能和用于语音搜索方面都已经不是90年代可比拟的了。不过,现阶段的水平也并非完全能替代其它输入设备,仍存在一些无法有效解读的场景。以中文为例,汉字的数量超过8万个,常用的约3500个,但汉字重音率特别高,只有1600多个。两个数量相比,便可以知道中文语音转换文字的难度有多高。极端情况下,可以参考“中国现代语言学之父”赵元任(1892.11.31982.2.24)当年写过的三首诗,《施氏食狮史》、《熙戏犀》和《季姬击鸡记》。其中一首于1930年在美国写的《施氏食狮史》如下:

 石室诗士施氏,嗜狮,誓食十狮。施氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。施氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。

这段几乎完全同音的文字,机器目前仍很难根据语音将其转成有效文字的。如果通过目前正流行的知识图谱来对重音字进行辅助解释,也许可以部分解决这一问题,对于打字不方便的人来说,是比较好的选择。但对于熟悉打字的,引入知识图谱这样的操作会浪费大量不必要的时间。尤其像上例这种情况,知识图谱能做的是每个单字可能都需要做解释,显然还不如打字来得快

而跨语种的翻译,国内外都在做,也有一些小型配套硬件被推出,但离同声翻译的距离还很远,因此它不仅仅是语音识别的问题,还涉及到更复杂的自然语言处理,以及广泛的背景知识。

语音也可以用于人身份的识别。尽管不如识别人的外表如人脸那么形象直观,但仍然是重要的生物认证方式之一,在反电话诈骗也有潜在的应用。语音与视频结合还能实现计算机读唇语,这一技术对于听力有障碍且交流困难的人尤其是聋哑人将有所帮助。 

三、歌唱识别      

       人类听觉系统除了用于交流、识别和警示外,还进化了一种可能只有人类才具有的高级智能,就是音乐,如独唱合唱、乐器独奏合奏等。其中,唱歌是最容易又是最难的“乐器”。因为随便谁都能唱,唱得好是“余音绕梁,三日不绝”,反之也可能会“呕哑嘲哳难为听”。与语音识别相比,歌唱的分析有更多的困难要克服,原因可以从两个方面来解释。

1、与说话的区别

人在说语时多以声带振动来发声,音调、频率都在人最自然的发声区,偶尔有些人会用腹式呼吸来增强声音的厚度和减少声带的疲劳。即使情绪波动会影响发声,但一般变化 也不会太大。

而唱歌则需要比较多的技巧,有着与说话显著不同的特点。首先,唱歌的音域变化范围很宽。比如俄罗斯男歌手维塔斯能从最低音到最高音唱跨四个八度,最高的声音能跟开水壶烧开水发的声音一样高,非常的厉害。不过我也能,多啦米发嗦拉希多,重复五次,也有五个八度。其次,共鸣腔的运用上唱歌和讲话的区别也非常之大。比如唱歌时用的头部共鸣,有从鼻腔和后脑勺位置发声共鸣的区别,这两者导致的音色差别很大。要根据歌曲风格不同来取舍,老百姓常听到的美声唱法喜欢把头腔共鸣置后。如果留意看歌星唱歌,有些人唱高音的时候会挤眉弄眼,鼻子皱了起来,那其实就是在找高音共鸣的位置。为了歌曲表达的厚度,光靠头腔还不够,因为会比较单薄,还得利用胸腔共鸣加强中低音区的共鸣。如果想把音域再提高,还可以学习用咽音技巧来发声。而低音比如呼麦的唱法则要把气运到声带附近振动发声。第三,气息也是造成说话和唱歌区别变大的地方。歌曲中有些歌词特别长,只用平时说话那种比较浅的胸式呼吸往往很难保持旋律的稳定和连续性,所以需要借助胸腹式呼吸以及更复杂的换气技巧;第四,不像说话一般是四平八稳的,歌曲的节奏变化很丰富,一首歌里可能快慢缓急都会出现;第五,对歌词的理解和情感的投入也会使唱歌与说话有显著的差别;第六,连读问题。中文歌词相对好一些,但英文在唱歌中的连读就多得多了。

关于唱歌和说话,人们可能还会有个错觉,以为口吃的人唱歌一定唱不好。但实际上这两者属于不同的发声机制。说话是需要思考要讲的内容,并进行语言组织,再说出来。而唱歌通常是歌曲的语调、语速和语气都已经给定,人需要做的是将这些内容经过反复练习后复述即可。所以,口吃的人可以,试着通过学习唱歌来找到流利发声的自信。

唱歌和说话的这些区别,使得唱歌中的语音识别变得尤其困难,但因此也衍生了更多的与语音和智能相关的应用。

2、如何评价歌曲的美

        唱歌对多数人来说,是缓解心情的方式之一。听到喜欢的歌,学来便唱了。可是唱得好不好呢?很多人并不太清楚,对自己的歌声也比较“自信” ,我也是如此 。另外, 什么样的歌才可以定义为好听的歌曲呢?

音乐里面定义好听与否,有个与频率f相关的通用法则。这是日本著名物理学家武者利光于1965年在应用物理学会杂志发表的文章“生物信息和1/f起伏”中提出的1/f波动原则。波动或起伏指在某个物理量在宏观平均值附近的随机变化,其原则在很多领域都适用。就音乐来说,1/f表明旋律在局部可以呈现无序状态,而在宏观上具有某种相关性的,可以让人感到舒适和谐的波动。如邓丽君的《甜蜜蜜》、《小城故事》等就是符合1/f波动原则的曲子,所以大家很喜欢听。但这一理论只适用解释比较舒缓的歌曲。对于其它形式的音乐风格,如摇滚、说唱等,则是因为其蕴含的律动能帮助人宣泄和抒发心情有关 。更有甚者,还有完全背离1/f波动原则的歌曲,如甲壳虫乐队(The Beatle)主唱约翰·列侬老婆小野洋子(Yoko Ono)在纽约的现代艺术博物馆演唱的、几乎接近噪声的实验歌曲《Fireworks》(原唱Katy Perry)。当然,国内也有类似的,有兴趣的不妨听听左小祖咒的《六枝花》。

为帮助评估音乐是否好听,科学家们还提出了一些心理声学的定性和定量指标,如基于粗糙度、尖锐度、波动度和音调等声学特征组合构成的“烦恼度”和“感知愉悦度”等复合声学指标。但不管如何约定,声音的感知仍是以个体的主观感受为评价,公众认同的并不见得能用于刻画小众的审美观点 。有人喜欢粗犷低沉的声音,有人喜欢清澈如水的,有人喜欢嘹亮的,有人喜欢委婉的,有人喜欢稀奇古怪的,有人喜欢平铺直叙,有人喜欢口水歌,有人喜欢阳春白雪。音乐风格的多样性和个性化色彩的浓郁,使得人工智能很难真正地形成统一的客观标准来替代这一领域的工作。

3、歌曲/歌唱的相关应用

  虽然歌曲/歌唱的分析显然比单纯的语音识别复杂、难度高,但在人工智能领域还是有一些相关的应用。这里列举几个比较有应用价值的。一是歌曲哼唱识别,这是目前多数提供音乐的平台有或者正在尝试做的一项功能。其任务是要根据局部片段的旋律,来识别可能的曲子。难点在于,并非每个人都能准确地把旋律哼出来。多数采用这种方式找曲子的,原因可能是不记得歌名,或者只是一段遥远的旋律记忆。其次,人的发音频率、说话的清晰度和原唱都有一定的差异。所以,哼唱识别的任务是要从不精确的哼唱中找到有效的候选集。

  除了哼唱,另一个重要的应用是自动调音。一是因为很少有人能具有绝对音高的能力,即使经过专业训练,仍然可能不稳。二是多数人的音准和稳定性是存在问题的。而喜爱唱歌的人又多,所以,自动调音对于专业歌手和业余爱好者都有很大的应用市场。但由于音乐的风格往往千变万化,而且还要学习和增强每个人特有的辨识度和个性化音色,所以,利用人工智能技术构造自动调音师的难度显而易见。

  另外,音乐声与人声分离也是一个极其重要的研究方向。人类在这方面的能力非常强,可以在非常嘈杂的环境中轻松选择自己关注的声音来聆听。1953Cherry将人类听觉注意引发的这一现象称为鸡尾酒会效应(Cocktail Party Effect)。虽然这一问题提出了半个多世纪,人工智能要实现和人相近的辨识能力还很难。因为获取的音频信号一般是经过多个声源混合而成的一维的音频信号,但要分离出原来的多个信号源是一对多的病态问题。在人工智能领域通常会假定这些信息源是相互独立的,且不符合之前提过的高斯分布,输出结果为这些信息源的加权组合。信息源的分离,又称为盲源分离,早先的做法是利用机器学习和模式识别领域的独立分量分析(Independent Component Analysis)的技术或其改进版来实现,但这一方法的不足是收敛速度慢,且难以获得唯一解。最近深度学习在这一方向上也有了长足的进步。如“谷歌研究”2018年八月在图形学顶级期刊ACM ToG上公布的最新成果。作者Ephrat等将音视频结合起来,分别对视频和音频采用两个深度学习模型提取各自特征。融合特征后,再用一个考虑时间变化的长短时记忆深度模型LSTM来刻画音视频的时序特性,最后为每个说话者都采用两个不同的解码系统来分离音频和视频。该模型达到了目前的最佳效果,离模拟人类的鸡尾酒会效应又进了一步。但其仍存在一些不足,主要有两点。一是需要借助视频,所以,人脸必须出现在画面里帮助定位声音源,这与人在鸡尾酒会上并不需要视觉的帮助来定位相比还是要弱不少。其次,该研究还没有涉及歌声和乐器声分离这一类更难的问题。

Picture34.png

3(a) 输入的视频帧与音频;(b) 处理思路:分别提取视频、音频特征,并执行音视频源分离;(c): 为每个说话者输出干净的音频 [1] 

        当然,基于人工智能的音乐分析还有很多其他有意思的应用,如计算机作曲/写歌词、设计像洛天依一样的唱歌机器人等等。但总体来看,人类作者写出的歌词、旋律的意境往往具有更好的整体性和更强的逻辑性,而计算机模拟的目前还只能做到局部逼近,在大局观、整体情绪情感的把握上仍然任重道远,也许现阶段考虑与人的混合智能处理是不错的尝试。

那么,音乐中还有没有其他比较有意思的错觉呢?下回书表! 

 

参考文献:

1. Ariel Ephrat, Inbar Mosseri, Oran Lang, Tali Dekel, Kevin Wilson, Avinatan Hassidim, William T. Freeman, Michael Rubinstein. Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation. ACM Trans. Graph. 37(4): 112:1-112:11, Aug, 2018. arXiv:1804.03619v2

 

张军平

20181022


延伸阅读:

14. 爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉

13.爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智

12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色

11.  爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉

10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形

9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆?

8、爱犯错的智能体 - 视觉篇(五):火星人脸的阴影

7、爱犯错的智能体 - 视觉篇(四):看得见的斑点狗

6、爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶

5、爱犯错的智能体 - 视觉篇 (二):颠倒的视界

4、爱犯错的智能体 - 视觉篇(一): 视觉倒像

3、AI版“双手互搏”有多牛? 浅谈对抗性神经网络

2、童话(同化)世界的人工智能

1、深度学习,你就是那位116岁的长寿老奶奶!


zjp.jpg

张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2700余次,ESI高被引一篇,H指数27. 



https://blog.sciencenet.cn/blog-3389532-1142151.html

上一篇:爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉
下一篇:爱犯错的智能体 --- 听觉篇(二):视听错觉与无限音阶的拓扑
收藏 IP: 202.120.234.*| 热度|

7 章忠志 周健 黄永义 李东风 蔡宁 彭思龙 shenlu

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 20:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部