|
中国科学院自动化研究所徐波研究员团队在《自动化学报》发表的综述“鸡尾酒会问题相关听觉模型研究的现状与展望”中,简要介绍了听觉机理的相关研究, 并概括了解决鸡尾酒会问题的多说话人语音分离相关计算模型之后, 本文还讨论了受听觉认知机理启发的听觉注意建模方法, 认为融入声纹记忆和注意选择的听觉模型在复杂的听觉环境下具有更好的适应性. 之后, 本文简单回顾了近期的多说话人语音识别模型. 最后, 本文讨论了目前各类计算模型对于处理鸡尾酒会问题时仍然存在的困难和挑战, 并对未来的研究方向进行了展望.
文章信息:黄雅婷, 石晶, 许家铭, 徐波. 鸡尾酒会问题与相关听觉模型的研究现状与展望. 自动化学报, DOI:10.16383/j.aas.c180674
全文链接:
https://book.yunzhan365.com/iths/uxcy/mobile/index.html
鸡尾酒会问题(Cocktail Party Problem)最早是由英国认知科学家Edward Colin Cherry于1953年在研究选择注意机制时提出的一个著名问题, 该问题是说人可以在复杂听觉环境下很容易地将注意力集中在某一个感兴趣的声音刺激上并忽略其它背景声音, 而计算听觉模型却受噪音影响严重. 半个世纪以来, 研究人员试图探明在受到其他说话人或者噪音干扰的情况下人类理解目标说话人言语这一过程背后的行为机理并构建计算模型, 但相关研究进展缓慢. 早期, 人们尝试借鉴视觉注意的研究方法, 但听觉表现出其独特的问题. 比如, 多说话人混合场景的语谱图覆盖度非常高, 另外, 听觉也无法设计类似于眼球追踪的视觉注意行为实验进行分析.
近些年, 随着智能设备和便携式可穿戴设备的爆炸式发展, 语音已经成为了人类接入智能计算设备和平台的最重要的入口之一. 基于此, 面对日常生活中最典型和常见的复杂听觉场景, 如何有效地处理鸡尾酒会问题就显得意义重大. 尽管隐藏在鸡尾酒会问题背后的神经机制尚未明朗,相关研究依旧取得了一定的成果. 在另一方面, 对于当今的人工智能方法和建模方式而言, 尤其对于神经网络和深度学习的方法, 借鉴人脑过程中的相关机制来构建类脑的、脑启发式的模型已经成为一种非常有效的手段. 我们认为, 要真正解决鸡尾酒会问题, 需要从听觉研究取得的相关成果中有所借鉴. 因此, 本文从人类处理鸡尾酒会问题的相关听觉机制出发, 总结了听觉选择过程中的一些关键机制, 并在之后详细对比了目前就鸡尾酒会问题建模的一些计算模型.
回顾鸡尾酒会问题被提出的场景, 当时英国认知科学家Edward Colin Cherry正是在研究人类选择注意机制时阐述了这一著名问题. 在人类进化过程中, 由于大脑中央处理的能力有限, 继而形成了选择注意机制来对需要更详细加工的部分进行进一步加工. 有实验研究发现, 人类不可能听到或者记住两个同时发生的语音. 相反, 人类却可以精准地从被混合的复杂语音中选择出来其注意到的语音, 以及同时忽略掉其他语音或者噪音等背景音. 另外, 在听觉中枢中有4倍于前馈的反馈连接参与过滤选择丘脑到听觉皮层的输入信号. 以上种种研究表明, 带反馈的听觉注意在人类处理复杂听觉场景中是非常重要且必不可少的一个机制. 听觉注意从机理和认知行为上一般可以分为自下而上(Bottom-up)和自上而下(Top-down)两种模式. 其中, 自下而上主要来自听觉场景的显著音刺激, 比如突然的爆炸声, 或者有人呼叫我们的名字. 而自上而下主要来自高层认知的选择性调节, 是有目的性和任务驱动的, 比如在聚会中与朋友聊天, 或聆听会场中演讲者的发言. 随着数据的不断积累和计算设备性能的大幅进步, 处理鸡尾酒会问题的语音分离模型已经逐渐从传统的基于信号处理, 分解和规则的方法转变成为通过数据驱动形式进行学习的以深度学习的一系列方法为代表的方法. 尽管深度学习方法对鸡尾酒会问题建模时存在排列问题(Permutation Problem)和输出维度不匹配问题(Output Dimension Mismatch Problem), 基于排列不变性的训练方法(Permutation Invariant Training, PIT)的深度学习模型[1], 深度聚类(Deep Clustering)[2]和深度吸引子网络(Deep Attractor Network, DANet)[3]等的提出在一定程度上解决了这些问题. 图1所示为基于PIT的深度学习模型框架.
图1 基于PIT的双说话人语音分离系统框架[1]
但是, 这些基于深度神经网络的语音分离模型在一定程度上过分依赖模型本身的优异性能, 直接对数据进行自下而上的刺激驱动处理, 忽略了对人类听觉回路中自上而下听觉注意过程的借鉴, 造成了可解释性较差、适用情况较局限等一系列问题. 近期出现了一批语音分离的工作, 将人类在鸡尾酒会环境中进行听觉选择的部分机制, 集成到现有的深度学习方法当中来, 从而解决了一些之前工作中存在的问题, 获得了更好的可解释性和比较优秀的性能. Xu等人提出ASAM (Auditory Selection framework with Attention and Memory), 在模型中设置一个长期记忆单元来模拟人脑听觉皮层中的声纹长时记忆, 首次将人类听觉过程中的自上而下和自下而上注意方式统一到一个计算模型框架中, 突破了之前很多端到端数据驱动语音分离模型的计算范式, 为鸡尾酒会问题的建模提供了新的思路[4]. 图2所示为ASAM系统框架, 其中长期记忆编码从模型初始化开始不断更新学习, 不会被重置. 该框架基于显著音刺激或任务导向有选择性地关注特定说话人语音, 与声源通道数目无关, 更适用于鸡尾酒会场景.
图2 ASAM语音分离模型框架[4]
进一步, Shi等人提出TDAA (Top-Down Auditory Attention)模型, 在ASAM的基础上摆脱了ASAM一次只能关注一个说话人的局限, 在自下而上的听觉场景推断过程中一个一个地预测出多个感兴趣的候选说话人, 来引导之后的针对每一个候选说话人的自上而下的听觉注意. TDAA在一定程度上既解决了之前的语音分离框架难以处理数目可变说话人的问题[5], 又可以尽可能多地关注多个说话人进行听觉注意选择. 图3所示为TDAA系统框架.
图3 TDAA语音分离模型框架[5]
上面的计算模型专注于解决从复杂听觉环境下的多说话人混合语音中调制出关注说话人语音的问题, 但在鸡尾酒会问题中, 调制出目标说话人语音之后的进一步智能化处理也十分重要. 最近出现一批工作致力于用深度学习方法解决复杂听觉环境下的多说话人语音识别问题. 多说话人语音识别算法目前有两种思路. 第一种思路是构建一个两阶段的模型, 即在语音分离模型之后接语音识别模型对每个分离的语音流进行识别. 但是这类模型需要分别对语音分离模型和语音识别模型进行训练或者预训练, 难以直接从头开始训练(from scratch). 第二种思路则是直接对混合语音进行识别而没有显式的分离阶段. Yu等人对PIT进行拓展可以直接对混合语音进行识别, 使用交叉熵作为误差函数, 对所有可能的排列进行计算并选择最小的排列来更新模型参数[6]. 但是该模型需要预先做音素对齐, 以获得音素级别的标签. 图4所示为基于PIT的多说话人语音识别系统框架.
图4 基于PIT的多说话人语音识别系统框架[6]
Seki等人提出一个基于CTC/Attention混合结构的端到端多说话人语音识别系统并采用PIT方法, 直接对输入的混合语音进行语音识别而无需使用音素级别的标签[7]. 图5所示为基于CTC/Attention混合结构的端到端多说话人语音识别系统框架.
图5 基于CTC/Attention混合结构的端到端多说话人语音识别系统框架[7]
概括地来说, 尽管受益于大数据和深度学习技术的迅猛发展, 对鸡尾酒会问题建模的模型性能大大上升, 并开始关注鸡尾酒会问题建模中的听觉机制建模和随后的智能化处理, 但是离真正解决鸡尾酒会问题还相去甚远. 我们认为要解决复杂听觉场景下的鸡尾酒会问题, 需要将计算模型和听觉研究中的一些相关机制深度结合起来. 如何将听觉和认知心理学研究中得到的一些基本成果, 借鉴到计算模型的建模中, 可能会成为解决鸡尾酒会问题的新的突破口.
相关文献
[1]Yu D, Kolbaek M, Tan Z H, Jensen J. Permutation invariant training of deep models for speaker-independent multi-talker speech separation. In: Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). New Orleans, USA: IEEE, 2017. 241-245.
[2]Hershey J R, Chen Z, Roux J L, Watanabe S. Deep clustering: Discriminative embeddings for segmentation and separation. In: Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Shanghai, China: IEEE, 2016. 31-35.
[3]Chen Z, Luo Y, Mesgarani N. Deep attractor network for single-microphone speaker separation. In: Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New Orleans, USA: IEEE, 2017. 246-250.
[4]Xu J M, Shi J, Liu G C, Chen X Y, Xu B. Modeling attention and memory for auditory selection in a Cocktail Party environment. In: AAAI Conference on Artificial Intelligence (AAAI). New Orleans, USA. 2018.
[5]Shi J, Xu J M, Liu G C, Xu B. Listen, think and listen again: capturing top-down auditory attention for speaker-independent speech separation. In: Proceedings of International Joint Conference on Artificial Intelligence (IJCAI). Stockholm, Sweden: 2018. 4353-4360.
[6]Yu D, Chang X, Qian Y. Recognizing Multi-talker Speech with Permutation Invariant Training. In: Proceedings of Interspeech. Stockhom, Sweden: Interspeech, 2017: 2456-2460.
[7]Seki H, Hori T, Watanabe S, Roux J L, Hershey J R. A Purely End-to-End System for Multi-speaker Speech Recognition. In: Proceedings of 56th Annual Meeting of the Association for Computational Linguistics (ACL). Melbourne, Australia: ACL, 2018. 2620-2630
作者简介
黄雅婷,中国科学院自动化研究所博士研究生. 主要研究方向是语音分离, 听觉模型, 类脑智能.
E-mail: huangyating2016@ia.ac.cn
石晶, 中国科学院自动化研究所博士研究生. 主要研究方向是语音分离, 听觉模型, 自然语言处理, 深度学习.
E-mail: shijing2014@ia.ac.cn
许家铭,中国科学院自动化研究所类脑智能研究中心副研究员. 主要研究方向为语音处理与听觉注意, 智能问答和对话, 深度学习和强化学习.
E-mail: jiaming.xu@ia.ac.cn
徐波, 中国科学院自动化研究所所长, 研究员. 中科院脑科学与智能技术卓越创新中心副主任. 长期从事人工智能研究, 主要研究领域包括: 类脑智能, 类脑认知计算模型, 自然语言处理与理解, 类脑机器人.
E-mail: xubo@ia.ac.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-4 09:19
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社