IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

利用深度卷积神经网络提高未知噪声下的语音增强性能

已有 630 次阅读 2024-2-15 16:38 |系统分类:博客资讯

引用本文

 

袁文浩, 孙文珠, 夏斌, 欧世峰. 利用深度卷积神经网络提高未知噪声下的语音增强性能. 自动化学报, 2018, 44(4): 751-759. doi: 10.16383/j.aas.2018.c170001

YUAN Wen-Hao, SUN Wen-Zhu, XIA Bin, OU Shi-Feng. Improving Speech Enhancement in Unseen Noise Using Deep Convolutional Neural Network. ACTA AUTOMATICA SINICA, 2018, 44(4): 751-759. doi: 10.16383/j.aas.2018.c170001

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170001

 

关键词

 

语音增强,深度卷积神经网络,深度神经网络,噪声 

 

摘要

 

为了进一步提高基于深度学习的语音增强方法在未知噪声下的性能,本文从神经网络的结构出发展开研究.基于在时间与频率两个维度上,语音和噪声信号的局部特征都具有强相关性的特点,采用深度卷积神经网络(Deep convolutional neural networkDCNN)建模来表示含噪语音和纯净语音之间的复杂非线性关系.通过设计有效的训练特征和训练目标,并建立合理的网络结构,提出了基于深度卷积神经网络的语音增强方法.实验结果表明,在未知噪声条件下,本文方法相比基于深度神经网络(Deep neural networkDNN)的方法在语音质量和可懂度两种指标上都有明显提高.

 

文章导读

 

语音增强是噪声环境下语音信号处理的必要环节[1].传统的基于统计的语音增强方法一般通过假设语音和噪声服从某种分布或者具有某些特性来从含噪语音中估计纯净语音, 这些方法对于平稳噪声具有较好的处理效果, 但在高度非平稳噪声和低信噪比情况下其处理性能将会急剧恶化[2-5].

 

近年来, 深度学习成为了机器学习领域的研究热点, 深度神经网络(Deep neural network, DNN)在图像分类和语音识别领域的成功应用为解决复杂多变噪声环境下的语音增强问题提供了思路.与其他机器学习方法相比, 深度神经网络具有更加强大的学习能力, 通过使用大量纯净语音和含噪语音样本数据进行模型的训练, 能够有效提高语音增强方法对不同噪声的适应能力, 相比传统有监督方法具有更强的泛化能力, 对没有经过训练的未知噪声也有比较好的处理效果.基于深度神经网络的语音增强方法的有效性已在很多文献中得到证明, 文献[6]训练DNN作为一个二值分类器来估计含噪语音的IBM (Ideal binary mask), 克服了基于核函数的机器学习方法对大规模数据存在的计算复杂度难题, 提高了对未知噪声的适应能力, 取得了优于传统方法的语音增强性能.文献[7]采用更加有效的IRM (Ideal ratio mask)代替IBM作为训练目标, 并通过实验证明了相比其他方法, 基于深度神经网络的语音增强方法明显提高了增强语音的质量和可懂度.不同于上述方法中使用的基于掩蔽的训练目标, Xu等将纯净语音的对数功率谱(Logarithmic power spectra, LPS)作为训练目标, 以含噪语音的对数功率谱作为训练特征, 通过训练DNN得到一个高度非线性的回归函数, 来建立含噪语音对数功率谱与纯净语音对数功率谱之间的映射关系[8]; 并在文献[9]中采用Global variance equalizationDropout trainingNoise-aware training三种策略进一步改善该方法, 使其在低信噪比、非平稳噪声环境下的语音增强性能相比传统方法有了显著提升.为了在语音增强时充分考虑相位信息, 文献[10]提出了复数域的掩蔽目标cIRM (Complex IRM), 通过同时估计掩蔽目标的实部和虚部, 相比使用其他训练目标进一步提高了语音增强性能.

 

除了设计不同的训练特征和训练目标, 提高未知噪声下语音增强性能的另外一种重要思路是提高训练集中噪声的多样性.文献[9, 11]分别采用包含104类和115类噪声的训练集, 提高了DNN对未知噪声的处理能力; 文献[12-13]更是通过训练包含10 000种不同噪声的DNN来提高对未知噪声的泛化能力, 主客观实验结果表明采用大数据量的训练集能显著提高未知噪声下的语音可懂度.另外, 与直接增加训练集噪声类型数量的方法不同, 文献[14]采用对有限种类的噪声施加不同的扰动项的方式来提高噪声特性的多样性, 实验结果表明该方法同样能有效提高DNN的泛化能力.

 

上述基于深度神经网络的语音增强方法尽管在训练目标的设计、训练特征的选择以及训练集的规模上各有不同, 但是它们所采用的网络结构均是全连接的DNN.为了进一步提高未知噪声下的语音增强性能, 本文考虑使用深度学习的另外一种重要的网络结构---深度卷积神经网络(Deep convolutional neural network, DCNN)来进行语音增强.深度卷积神经网络在图像识别等分类任务上已经取得了巨大成功[15], 其在二维图像信号处理上相比DNN表现出了更好的性能.语音和噪声信号在时域的相邻帧和频域的相邻频带之间都具有很强的相关性, 因此在基于深度神经网络的语音增强方法中, 为了充分考虑时域和频域的上下文关系, 一般采用相邻多帧的特征作为网络的输入, 这种矩阵形式的输入在时间和频率两个维度上的局部相关性与图像中相邻像素之间的相关性非常类似.如图 1和图 2所示, 假设使用连续5帧的对数功率谱作为网络的输入, 当网络结构为全连接的DNN, 由于其输入层只有一个维度, 因此要将包含时频结构信息的矩阵转换为向量作为输入; 而当网络结构为DCNN, 则可以直接使用矩阵作为输入, 不破坏时频结构.可见, 得益于DCNN在二维平面上的局部连接特性, 使其相比DNN能够更好地表达网络输入在时间和频率两个维度的内在联系, 因而在语音增强时能够更充分地利用语音和噪声信号的时频相关性.另外, DCNN通过权值共享极大减少了神经网络需要训练的参数的个数, 具有更好的泛化能力, 对未训练噪声理论上应该有更好的处理性能.

 1  DNN结构示意图

 2  DCNN结构示意图

 

实际上, 对于语音信号处理, CNN (Convolutional neural network)以及DCNN已经在语音识别任务中得到成功应用, 取得了超越DNN/HMM系统的语音识别性能, 证明了其对于语音信号同样具有较好的特征提取能力[16-18], 文献[19-23]更是采用极深层的卷积神经网络显著提高了语音识别性能.但是在语音识别任务中, DCNN的最后一层一般采用Softmax来预测状态概率, 因此本质上也是一个分类问题; 而基于深度神经网络的语音增强方法一般将语音增强归结为回归问题进行解决, 因此传统的网络结构并不适合.文献[24]以幅度谱向量作为训练特征和训练目标, 采用不包含全连接层的FCNN (Fully convolutional neural network)来进行语音增强, 虽然大幅度降低了训练参数的规模, 但是相比DNN并没有明显提高增强后语音的质量和可懂度; 文献[25]采用CNNLPS特征进行建模, 通过同时学习纯净语音和信噪比, 研究了SNR-aware算法对语音增强性能的影响, 但是并没有对不同网络结构的语音增强性能进行深入分析.为了提高语音增强性能, 特别是未知噪声下的语音增强性能, 本文通过对不同网络结构的语音增强性能进行对比与分析, 设计针对语音增强问题的合理DCNN网络结构, 提出基于深度卷积神经网络的语音增强方法; 最后通过实验度量增强语音的质量和可懂度, 对方法在未知噪声下的语音增强性能进行客观评价.

 3  本文DCNN的结构框图

 

为了进一步提高未知噪声下的语音增强性能, 考虑DCNN相比DNN具有更好的局部特征表达能力, 能够更好地利用语音和噪声信号的时频相关性, 本文采用深度卷积神经网络建立回归模型来表达含噪语音和纯净语音之间的复杂非线性关系.通过使用非负对数幅度谱作为训练特征和训练目标, 设计与训练了不同结构的DCNN并对其语音增强性能进行了比较, 得到了适合于语音增强问题的合理网络结构, 提出了基于深度卷积神经网络的语音增强方法.实验结果表明, 在与DNN及其他方法的对比中, 本文提出的DCNN在测试集上取得了更小的误差, 表现出了更好的噪声抑制能力, 在各类噪声和各种信噪比条件下都显著提升了增强后语音的语音质量和可懂度, 进一步提高了未知噪声下的语音增强性能.

 

作者简介

 

孙文珠

博士, 山东理工大学计算机科学与技术学院讲师.主要研究方向为多媒体信号传输, 视频编码.E-mail:swz_lw@sina.com

 

夏斌  

博士, 山东理工大学计算机科学与技术学院副教授.主要研究方向为信号处理.E-mail:xiabin@sdut.edu.cn

 

欧世峰  

博士, 烟台大学光电信息科学技术学院副教授.主要研究方向为语音信号处理, 盲信号处理.E-mail:ousfeng@126.com

 

袁文浩  

博士, 山东理工大学计算机科学与技术学院讲师.主要研究方向为语音信号处理, 语音增强.本文通信作者.E-mail:why_sdut@126.com



https://blog.sciencenet.cn/blog-3291369-1421760.html

上一篇:下肢康复机器人的自适应人机交互控制策略
下一篇:基于Biohashing的指纹模板保护算法
收藏 IP: 222.131.245.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 21:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部