Chenfiona的个人博客分享 http://blog.sciencenet.cn/u/Chenfiona

博文

陶建华团队:基于半监督梯形网络的语音情感识别

已有 2553 次阅读 2019-8-26 09:36 |个人分类:好文推荐|系统分类:论文交流

作为语音信号处理的主要部分,语音情感识别(speech emotion recognition, SER)在理解人类交流时必不可少且愈发重要。受益于深度学习的快速发展,很多研究者利用各种无监督模型提取有效的情感特征、构建不同监督模型训练情感识别系统。


图片来自网络


自动化所陶建华研究员团队基于半监督梯形网络构建语音情感识别模型,联合优化监督损失和辅助无监督损失函数,对模型进行训练。同时,模型加入了无监督辅助任务不仅可提取具有区分性的情感特征,同样还可视为主要情感监督任务的正则化。该研究还对比了梯形网络与其他经典的自编码结构,最后的实验结果表明:较其他方法而言,本研究所提方法在标记数据更少的情况,也能取得较优的性能。相关成果已于8月发表于IJAC第16卷第4期。


//////////

Semi-supervised Ladder Networks for Speech Emotion Recognition

Jian-Hua Tao, Jian Huang, Ya Li, Zheng Lian, Ming-Yue Niu

全文下载(限时免费):

https://link.springer.com/article/10.1007/s11633-019-1175-x

整期限时免费下载:

https://link.springer.com/journal/11633/16/4/page/1

相关文章:

自动化所陶建华团队: 基于真实环境的面部表情分析



图片来自Springer


语音作为人类一大重要的交流媒介,不仅包含了基本的语言信息,还传递了丰富的情感信号。借助于情感,人们可以更好地理解情感表达及潜在意图。语音情感识别能够帮助机器理解人类情感状态,因此其在人机交互领域中有很多应用。例如,在客户服务中心,可以通过监测客户的情感状态来评价服务人员的服务质量,一方面可帮助提升服务水平,另一方面也能减少因人工评价所产生的工作量。


情感通常可以用几种类别来进行描述,如开心、伤心、生气等。建立语音情感数据库时,一般会基于真实场景,将人们的每条语句归类至一个特定的情感类别当中。因此,多数研究者会把语音情感识别当作一种典型的监督学习任务。就情感数据库而言,通过对分类模型进行训练,可准确预测每条语句的情感标签。因此,很多传统的机器学习方法均可成功应用于语音情感识别中。此外,还有不少研究者基于深度神经网络构建有效的语音情感识别模型,并取得了诸多可喜的成果。


图片来自网络


然而,语音情感识别仍然面临着很多挑战,如说话者性别、语言、文化等的差异会直接影响系统性能。数据库录制环境的差异同样会影响系统的稳定性。虽然在语音情感分类上,自动系统的表现远胜人类,但当与语音识别及图像分类任务的表现相比,现在的语音情感识别系却略显稚嫩,而影响模型鲁棒性的一个重要原因在于缺乏足够的情感数据。


通过学习不同类别间的差异,监督学习方法可以预测出情感类别。为保证分类的准确性,需要大量标记的语音情感数据。然而,获取标记数据不仅要求足够的专业知识,而且是一项非常耗时的工作。此外,由于不同人有不同的感知和情感表达方式,在确定情感边界时也往往存在主观性强、划分不清晰的问题。因此,当前还没有一个绝对标准可以指导情感标注。语音情感数据库的体量因此受限,无法覆盖不同情况下产生的多样数据。


考虑到语音情感数据的匮乏性,应该充分运用未标记数据中的信息。无监督学习可以在不依赖标记信息的前提下,从数据中自动提取鲁棒的特征表达,这种模型能够描述数据的内在结构,并且具有更强的建模和泛化能力,可用以训练更好的分类模型。


图片来自网络


当前多数无监督特征学习方法已经尝试着为语音情感识别任务生成显著情感特征表达,如AE、DAE。AE和DAE这两种方法旨在获取中间特征表达,以尽可能多地重建输入数据。其他更复杂的方法,如VAE和GAN,在语音情感识别任务时表现的性能更优,以上方法均强调对数据分布建模,而非数据本身。


通过无监督模型学习获得的特征表达通常被用作监督分类模型的输入数据,以训练语音情感识别系统。然而,这一方法背后隐藏着一个问题:前面的无监督学习扮演着特征提取器的作用,而这一模型的目标却是完整恢复输入信号,这就意味着所有的信息都会被尽可能多地保存下来,可我们真正需要的只是情感相关的信息。


另一方面,后面的监督学习只关注有利于分类预测的信息,但可以辅助语音情感识别的附加信息却有可能被舍弃。因此,通过无监督学习得到的特征表达无法有效地帮助完成监督分类任务。总而言之,由于数据训练分开进行,导致无监督学习部分与监督学习部分这前后两步的目标不一致。


为了解决这一问题,研究者们提出了深度半监督学习,其将无监督特征表达学习与监督模型训练相结合。这一方法的关键在于前后两部分同时训练,保证了通过无监督学习得到的特征表达更好地与监督模型契合。一些典型的结构所需要的标记训练样本更少,在其他领域表现出极具竞争力的性能。


图片来自论文


在无监督学习部分的助力下,半监督学习能够基于大量无标记样本得到更好的特征表达,继而提升完成监督任务时的性能。鉴于语音情感数据匮乏而语音数据丰富,故可将半监督学习方法应用于语音情感识别当中。实际上,起辅助作用的无监督学习在半监督学习模型中同样起到了正则化的作用。在构建可适用于不同情况的语音情感识别系统时,正则化必不可少。当训练数据库与测试数据库不一致时,传统模型通常表现不佳。通过优化训练模型以完成主要和辅助任务,特征表达往往更广泛,避免了过度拟合某一特定领域。因此,创建无监督辅助任务以正则化网络,将是一项有趣的研究。


图片来自论文


多数无监督方法旨在学习中间特征表达,无法支持底层情感分类任务。本研究提出将输入数据的无监督重建作为辅助任务以正则化网络,同时优化情感分类系统的性能。借助半监督梯形网络,本研究实现了上述目标。加入无监督辅助任务不仅可获得具有区分性的鲁棒特征,同样还可视为主要情感监督任务的正则化。


图片来自论文


本研究的主要贡献可概括如下:


1)本研究利用基于梯形网络的半监督学习来实现语音情感识别,强调无监督重建和跳跃连接模块的重要性。此外,梯形网络的高层网络能获得更具区分性特征的能力。


2) 本研究展示了半监督梯形网络的优点:仅需借助少量标记样本即可得到满意的结果。


3) 本研究对比了DAE和VAE方法与梯形网络在语音情感识别任务中的性能,结果显示梯形网络表现甚佳。此外,编码器和解码器的卷积神经网络结构可更好地编码情感特征



【全文信息】


Semi-supervised Ladder Networks for Speech Emotion Recognition

Jian-Hua Tao, Jian Huang, Ya Li, Zheng Lian, Ming-Yue Niu

Abstract:

As a major component of speech signal processing, speech emotion recognition has become increasingly essential to understanding human communication. Benefitting from deep learning, many researchers have proposed various unsupervised models to extract effective emotional features and supervised models to train emotion recognition systems. In this paper, we utilize semi-supervised ladder networks for speech emotion recognition. The model is trained by minimizing the supervised loss and auxiliary unsupervised cost function. The addition of the unsupervised auxiliary task provides powerful discriminative representations of the input features, and is also regarded as the regularization of the emotional supervised task. We also compare the ladder network with other classical autoencoder structures. The experiments were conducted on the interactive emotional dyadic motion capture (IEMOCAP) database, and the results reveal that the proposed methods achieve superior performance with a small number of labelled data and achieves better performance than other methods.

Keywords:

Speech emotion recognition, the ladder network, semi-supervised learning, autoencoder, regularization.

Full Text:

1)SpringerLink:

https://link.springer.com/article/10.1007/s11633-019-1175-x

2)IJAC URL:

http://www.ijac.net/en/article/doi/10.1007/s11633-019-1175-x


特别感谢本文第二作者、自动化所黄健博士对以上内容的审阅与修改!


RECOMMEND

最优质的论文

自动化所陶建华团队: 基于真实环境的面部表情分析

【综述】美外籍院士Brian Anderson: 社交网络中舆论动力学研究进展

AI复原”美男学霸”,一文综述背后神算法

特约综述+最新研究,好文云集!

【热门精选】五大方向、经典论文

帝国理工学院:自然语言处理中大数据的智能收集与分析

北大王立威团队: 零样本细粒度图像分析新模型

【全文免费】国内外特约综述&优质论文

【当期目录】四月新文,研海踏青

英国克兰菲尔德大学: 用于故障监测与诊断的全新多层分析算法

公共安全新卫士: 人群异动自动监测系统

【院士特辑】猪福派送,猪多好文!

【新年大礼】IJAC新网站下起红包雨!

【综述专栏】实现产品研发“众包”的框架、关键技术及挑战

【新年精选】新晋IEEE Fellow文章集锦

【综述集锦】两年精选综述,都在这里!

【综述专栏】中科院自动化所杜清秀:基于微惯性技术的行人航迹推演系统研究现状

拉夫堡大学陈文华:精准农业中分类问题的研究

【专题好文】应用于服务机器人的全新语义认知算法

【综述专栏】应用于智能微型机器人的软件系统

【特约专题】先进机器人的智能控制与计算

【综述专栏】华盛顿大学陈一昕: 深度学习在健康检测数据中的应用


最受欢迎的干货

科研神网站,免费的!

【资源共享】9大类186组公开数据集

复杂公式转LaTex:一张图片,三步搞定!

【线上课堂】Endnote使用大全

如何提升科研成果影响力

提升科研效率的几款小工具

如何找到科研金点子?

2019年国际会议参考列表

【最新资讯】2018全球工程前沿报告

一张图帮你界定AI

【论文助手】写好摘要的6个诀窍

IEEE给您的8条办会建议

【主编报告】如何写好一篇学术论文?

Nature社论:论文提笔前,编辑给你的小建议

投稿小心机:别再放过cover letter!

Science:没时间写论文?这么办!

【IJAC支招】Poster=PPT?NO!

【同行评议】如何撰写审稿报告?

【同行评议】优秀论文背后的“伯乐”们


更多精彩内容,欢迎关注

1) IJAC官方网站:

http://link.springer.com/journal/11633

http://www.ijac.net

2) Linkedin: Int. J. of Automation and Computing

3) 新浪微博: IJAC-国际自动化与计算杂志

4) Twitter: IJAC_Journal

5) Facebook: ijac journal

关于杂志或文章,您有任何意见或建议,欢迎后台留言或私信小编

本文编辑:欧梨成



https://blog.sciencenet.cn/blog-749317-1195229.html

上一篇:AI复原”美男学霸”,一文综述背后神算法
下一篇:【新学期必备】AI学习全路线资源分享
收藏 IP: 103.254.68.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 02:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部