|
引用本文
陈晨, 韩纪庆, 陈德运, 何勇军. 文本无关说话人识别中句级特征提取方法研究综述. 自动化学报, 2022, 48(3): 664−688. doi: 10.16383/j.aas.c200521 Chen Chen, Han Ji-Qing, Chen De-Yun, He Yong-Jun. Utterance-level feature extraction in text-independent speaker recognition: a review. Acta Automatica Sinica, 2022, 48(3): 664−688. doi: 10.16383/j.aas.c200521 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200521?viewType=HTML 文章简介 关键词 说话人识别, 句级特征提取, 任务分段式策略, 任务驱动式策略, 联合学习 摘 要 句级 (Utterance-level) 特征提取是文本无关说话人识别领域中的重要研究方向之一. 与只能刻画短时语音特性的帧级 (Frame-level) 特征相比, 句级特征中包含了更丰富的说话人个性信息; 且不同时长语音的句级特征均具有固定维度, 更便于与大多数常用的模式识别方法相结合. 近年来, 句级特征提取的研究取得了很大的进展, 鉴于其在说话人识别中的重要地位, 本文对近期具有代表性的句级特征提取方法与技术进行整理与综述, 并分别从前端处理、基于任务分段式与驱动式策略的特征提取方法, 以及后端处理等方面进行论述, 最后对未来的研究趋势展开探讨与分析. 引 言 说话人识别 (Speaker recognition) 又称为话者识别或声纹识别, 其能通过对说话人语音信号的分析处理, 来自动识别出说话人的身份. 相比于其他身份认证技术, 说话人识别具有不需要与个体直接接触、识别使用的设备成本较低, 以及便于与现有的通信系统相结合等优势. 而这些语音本身所具有的众多优点, 则使得说话人识别技术倍受企业与研究者们的关注并得以快速发展. 根据识别对象的差异, 可以将说话人识别分为两类, 即文本相关 (Text-dependent) 型与文本无关 (Text-independent) 型. 前者要求说话人提供特定发音的关键词或关键句作为训练数据, 识别时也必须按照相同的内容发音; 而后者则不需要强制规定语音内容. 二者相较而言, 与文本无关的说话人识别研究对语音内容的要求更自由, 因此其拥有更广泛的应用领域. 与文本无关的说话人识别研究虽然已经取得了巨大的进展, 但其面对的主要困难与挑战却依然存在, 即语音信号中存在大量的变化信息 (Variable). 具体而言, 由于每段语音的表述内容不同, 因此必须在自由的语音信号中寻找能够表征说话人身份的个性信息; 同时, 受到不同录音装置与传输方式的影响, 语音信号中也会引入更多的变化信息. 因此, 提取出能够有效包含说话人个性信息的特征具有很大的挑战性. 然而, 上述问题的解决将有效推动说话人识别的研究进展. 由于语音信号具有短时平稳的特性, 因此在进行前端特征提取时, 通常可以采用短时的帧级 (Frame-level) 特征来刻画语音信号. 然而, 语音信号具有时变性与上下文相关性, 这些与时间相关的动态特性中往往蕴含着丰富的说话人个性信息, 从而使得此信息具有长时统计特性, 而只对帧级特征序列进行简单的取均值操作无法有效获取语音段的统计特性. 因此, 如何合理利用一段语音的帧级特征序列, 从中提取出包含说话人个性信息的句级 (Utterance-level) 特征则显得尤为重要. 同时, 句级特征提取能够对不同时长的语音信号进行整合, 从而使不定长语音信号能用固定维度的特征表示. 因此, 其可与大多数常用的模式识别算法相结合, 具有更强的可操作性. 目前的方法在进行句级特征提取时, 一般会具有阶段性目标或只具有一个统一目标, 本文将根据此分类依据对句级特征提取方法进行分类. 其中, 第1类方法由于具有多个阶段, 且各阶段均具有独立的优化目标 (任务), 本文称其为基于任务分段式学习策略的特征提取方法; 而第2类方法由于只具有统一的优化目标, 因此本文称其为基于任务驱动式学习策略的特征提取方法. 基于上述分析, 本文总结并介绍与文本无关说话人识别中具有代表性的句级特征提取方法, 试图为进一步深入研究特征提取方法奠定理论基础. 第1节简要概述进行句级特征提取之前的前端处理过程; 第2节和第3节分别介绍基于任务分段式与驱动式策略的句级特征提取方法; 第4节对后端处理的相关内容进行介绍; 第5节对未来研究趋势进行分析; 第6节对全文进行总结. GMM均值超矢量提取过程示意图 作者简介 陈 晨 哈尔滨理工大学讲师, 博士后. 主要研究方向为语音信号处理, 音频信息分析, 说话人识别. 本文通信作者. E-mail: chenc@hrbust.edu.cn 韩纪庆 哈尔滨工业大学教授. 主要研究方向为语音信号处理, 音频信息分析. E-mail: jqhan@hit.edu.cn 陈德运 哈尔滨理工大学教授. 主要研究方向为语模式识别, 机器学习. E-mail: chendeyun@hrbust.edu.cn 何勇军 哈尔滨理工大学教授. 主要研究方向为语音信号处理, 图像处理. E-mail: holywit@163.com 相关文章 [1] 林景栋, 吴欣怡, 柴毅, 尹宏鹏. 卷积神经网络结构优化综述. 自动化学报, 2020, 46(1): 24-37. doi: 10.16383/j.aas.c180275 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180275?viewType=HTML [2] 王金甲, 纪绍男, 崔琳, 夏静, 杨倩. 基于注意力胶囊网络的家庭活动识别. 自动化学报, 2019, 45(11): 2199-2204. doi: 10.16383/j.aas.c180721 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180721?viewType=HTML [3] 黄雅婷, 石晶, 许家铭, 徐波. 鸡尾酒会问题与相关听觉模型的研究现状与展望. 自动化学报, 2019, 45(2): 3-20. doi: 10.16383/j.aas.c180674 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180674?viewType=HTML [4] 吴培良, 隰晓珺, 杨霄, 孔令富, 侯增广. 一种基于联合学习的家庭日常工具功用性部件检测算法. 自动化学报, 2019, 45(5): 985-992. doi: 10.16383/j.aas.c170423 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c170423?viewType=HTML [5] 汪海彬, 郭剑毅, 毛存礼, 余正涛. 基于通用背景-联合估计(UB-JE)的说话人识别方法. 自动化学报, 2018, 44(10): 1888-1895. doi: 10.16383/j.aas.2017.c170051 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c170051?viewType=HTML [6] 秦楚雄, 张连海. 基于DNN的低资源语音识别特征提取技术. 自动化学报, 2017, 43(7): 1208-1219. doi: 10.16383/j.aas.2017.c150654 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c150654?viewType=HTML [7] 黄丹丹, 孙怡. 基于判别性局部联合稀疏模型的多任务跟踪. 自动化学报, 2016, 42(3): 402-415. doi: 10.16383/j.aas.2016.c150416 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150416?viewType=HTML [8] 唐朝辉, 朱清新, 洪朝群, 祝峰. 基于自编码器及超图学习的多标签特征提取. 自动化学报, 2016, 42(7): 1014-1021. doi: 10.16383/j.aas.2016.c150736 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150736?viewType=HTML [9] 屈丹, 杨绪魁, 张文林. 特征空间本征音说话人自适应. 自动化学报, 2015, 41(7): 1244-1252. doi: 10.16383/j.aas.2015.c140644 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2015.c140644?viewType=HTML [10] 许云飞, 杨海, 周若华, 颜永红. 高斯PLDA在说话人确认中的应用及其联合估计. 自动化学报, 2014, 40(6): 1068-1074. doi: 10.3724/SP.J.1004.2014.01068 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01068?viewType=HTML [11] 栗志意, 张卫强, 何亮, 刘加. 基于总体变化子空间自适应的i-vector说话人识别系统研究. 自动化学报, 2014, 40(8): 1836-1840. doi: 10.3724/SP.J.1004.2014.01836 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01836?viewType=HTML [12] 栗志意, 张卫强, 何亮, 刘加. 基于核函数的IVEC-SVM说话人识别系统研究. 自动化学报, 2014, 40(4): 780-784. doi: 10.3724/SP.J.1004.2014.00780 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.00780?viewType=HTML [13] 吴玉香, 王聪. 基于确定学习的机器人任务空间自适应神经网络控制. 自动化学报, 2013, 39(6): 806-815. doi: 10.3724/SP.J.1004.2013.00806 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2013.00806?viewType=HTML [14] 苏兆品, 蒋建国, 梁昌勇, 张国富. 一种基于P学习的分布式并行多任务分配算法. 自动化学报, 2011, 37(7): 865-872. doi: 10.3724/SP.J.1004.2011.00865 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00865?viewType=HTML [15] 何亮, 史永哲, 刘加. 联合因子分析中的本征信道空间拼接方法. 自动化学报, 2011, 37(7): 849-856. doi: 10.3724/SP.J.1004.2011.00849 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00849?viewType=HTML [16] 董远, 陆亮, 赵贤宇, 赵建. 对文本无关的说话人验证中模型距离归一化问题的研究. 自动化学报, 2009, 35(5): 556-560. doi: 10.3724/SP.J.1004.2009.00556 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.00556?viewType=HTML [17] 钟山, 何亮, 邓妍, 刘加. 基于最大似然线性回归矩阵的说话人识别算法研究. 自动化学报, 2009, 35(5): 546-550. doi: 10.3724/SP.J.1004.2009.00546 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.00546?viewType=HTML [18] 郭武, 李轶杰, 戴礼荣, 王仁华. 说话人识别中的因子分析以及空间拼接. 自动化学报, 2009, 35(9): 1193-1198. doi: 10.3724/SP.J.1004.2009.01193 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.01193?viewType=HTML [19] 金乃高, 殷福亮, 陈喆. 基于动态贝叶斯网络的音视频联合说话人跟踪. 自动化学报, 2008, 34(9): 1083-1089. doi: 10.3724/SP.J.1004.2008.01083 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2008.01083?viewType=HTML [20] 蒋建国, 张国富, 夏娜, 苏兆品. 一种基于理性Agent的任务求解联盟形成策略. 自动化学报, 2008, 34(4): 478-481. doi: 10.3724/SP.J.1004.2008.00478 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2008.00478?viewType=HTML [21] 蒋建国, 苏兆品, 齐美彬, 张国富. 基于强化学习的多任务联盟并行形成策略. 自动化学报, 2008, 34(3): 349-352. doi: 10.3724/SP.J.1004.2008.00349 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2008.00349?viewType=HTML [22] 徐利敏, 唐振民, 何可可, 钱博. 基于自适应直方图均衡化的鲁棒性说话人辨认研究. 自动化学报, 2008, 34(7): 752-759. doi: 10.3724/SP.J.1004.2008.00752 http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2008.00752?viewType=HTML [23] 葛彤, 冯正平, 朱继懋. 分段重构控制策略. 自动化学报, 2000, 26(6): 807-810. http://www.aas.net.cn/article/id/14694?viewType=HTML
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 15:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社