|
引用本文
董兴磊, 胡英, 黄浩, 吾守尔·斯拉木. 基于卷积非负矩阵部分联合分解的强噪声单声道语音分离. 自动化学报, 2020, 46(6): 1200-1209. doi: 10.16383/j.aas.c180065
DONG Xing-Lei, HU Ying, HUANG Hao, SILAMU Wushour. Monaural Speech Separation by Means of Convolutive Nonnegative Matrix Partial Co-factorization in Low SNR Condition. ACTA AUTOMATICA SINICA, 2020, 46(6): 1200-1209. doi: 10.16383/j.aas.c180065
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180065
关键词
卷积非负矩阵分解,非负矩阵部分联合分解,语音分离,强噪声,单声道
摘要
非负矩阵部分联合分解(Nonnegative matrix partial co-factorization, NMPCF)将指定源频谱作为边信息参与混合信号频谱的联合分解, 以帮助确定指定源的基向量进而提高信号分离性能.卷积非负矩阵分解(Convolutive nonnegative matrix factorization, CNMF)采用卷积基分解的方法进行矩阵分解, 在单声道语音分离方面取得较好的效果.为了实现强噪声条件下的语音分离, 本文结合以上两种算法的优势, 提出一种基于卷积非负矩阵部分联合分解(Convolutive nonnegative partial matrix co-factorization, CNMPCF)的单声道语音分离算法.本算法首先通过基音检测算法得到混合信号的语音起始点, 再据此确定混合信号中的纯噪声段, 最后将混合信号频谱和噪声频谱进行卷积非负矩阵部分联合分解, 得到语音基矩阵, 进而得到分离的语音频谱和时域信号.实验中, 混合语音信噪比(Signal noise ratio, SNR)选择以-3 dB为间隔从0 dB至-12 dB共5种SNR.实验结果表明, 在不同噪声类型和噪声强度条件下, 本文提出的CNMPCF方法相比于以上两种方法均有不同程度的提高.
文章导读
语音分离是语音信号处理的重要分支, 旨在从被干扰的混合信号中分离出纯净的语音信号, 以提升语音信号的可懂度.近年来, 语音分离算法不断地成熟发展, 单声道语音分离作为一个难点, 成为学者们聚焦的一个研究热点[1-2].
语音分离过程能够很自然地表达为一个有监督学习问题.语音分离系统通过有监督学习算法, 学习一个从混合语音的频谱到纯净语音频谱的映射函数[3]以实现语音分离.近年来有监督语音分离技术取得了重要的研究进展, 其中主流的有监督学习算法包括基于非负矩阵分解[4]、基于计算听觉场景分析[5]和基于深度神经网络[2, 6-7]的语音分离算法.
基于非负矩阵分解的算法在语音分离领域引起广泛的研究. Smaragdis[8]提出一种卷积非负矩阵分解算法, 该算法采用一系列语音基矩阵集进行语音频谱的矩阵分解, 这些基矩阵集不仅能描述频谱沿着频率变化的情况, 还能描述频谱沿着时间变化的情况.因此卷积非负矩阵分解(Convolutive nonnegative matrix factorization, CNMF)在指定说话人条件下的单声道语音分离得到了较好的效果. O'Grady等[9]在此基础上加入稀疏约束, 提出一种稀疏卷积非负矩阵分解(Sparse convolutive nonnegative matrix factorization, SCNMF)的算法, 对语音基矩阵集增加稀疏约束又进一步提高了语音分离算法的性能.由于噪声信号在时域上不具备时变特性, 据此, Sun等[10]提出一种基于块卷积的稀疏低秩模型的单声道语音增强算法以去除混合语音中的噪声成份得到增强的语音信号.总的来说, 非负矩阵分解(Nonnegative matrix factorization, NMF)[4]在语音分离应用上有了长足的发展, 当带噪语音信号中的信号源是统计独立时, 强加一些约束条件后, NMF算法对于源分离便是有效且鲁棒的.然而, 在没有任何关于指定信号源的先验知识情况下, 标准NMF算法缺少对指定源的分离能力.为了解决这个问题, 非负矩阵部分联合分解(Nonnegative matrix partial co-factorization, NMPCF)[11-13]应运而出. Hu等[14]将该算法应用到唱声分离和歌手识别中, 提出一种基于NMPCF的唱声分离的歌手识别方法, 该方法将检测出的纯伴奏片段频谱作为边信息参与混合唱声频谱的联合分解, 在分解过程中, 混合频谱与纯伴奏频谱只共用伴奏基矩阵, 混合频谱与干净唱声频谱只共享唱声基矩阵, 因此称为部分联合分解。相比基于其他基于NMF的分离算法, 部分联合分解算法分离的唱声性能有了很大提高.
基于上述分析, 结合CNMF和NMPCF算法的优势, 本文提出一种卷积非负矩阵部分联合分解算法用于强噪声条件下的单声道语音分离.本文的组织结构如下:第1节介绍稀疏约束卷积非负矩阵分解算法; 第2节描述非负矩阵部分联合分解算法; 第3节针对提出的分离算法进行量化评估; 第4节给出总结与讨论.
图 1 干净语音频谱经过CNMF分解后提取出的基向量
图 2 CNMPCF算法的频谱分解示意图
图 3 语音起点、终点(边界)检测示意图
本文提出了一种卷积非负矩阵部分联合分解的语音分离算法, 有效的解决了传统的非负矩阵分解很难确定指定源基向量的困难, 同时考虑到语音信号的时频域相关性, 有效的表征原始语音信号的结构特征, 得到了较好的分离性能.由于提取的混合语音中的纯噪声频谱段参与联合分解, 可以认为噪声类型和噪声强度都作为先验信息引入联合分解, 因此卷积非负矩阵部分联合分解算法对噪声类型和噪声强度而言有一定鲁棒性, 在低信噪比(强噪声)条件下也能获得较好的分离性能, 实验结果表明, 在非平稳噪声和低信噪比的条件下, 相比于以上两种方法均有不同程度的提高.
作者简介
董兴磊
新疆大学信息科学与工程学院硕士研究生.主要研究方向为语音信号处理, 语音分离. E-mail: 15739578112@163.com
黄浩
新疆大学信息科学与工程学院教授. 2008年在上海交通大学电子工程系获博士学位.主要研究方向语音识别, 多媒体人机交互技术. E-mail: huanghao@xju.edu.cn
吾守尔·斯拉木
新疆大学信息科学与工程学院教授.主要研究方向为语音识别, 语音合成, 多语种信息处理. E-mail: wushour@xju.edu.cn
胡英
新疆大学信息科学与工程学院副教授.研究方向为音频信息检索, 语音处理.本文通信作者. E-mail: huying 75@sina.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-4 06:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社