IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

Björn Schuller: 深度小波时频图特征在声音场景分类任务中的表现

已有 5787 次阅读 2018-4-9 14:59 |系统分类:博客资讯

文章导读

    声音场景分类,旨在分类指定声音所发生的场景类别,比如火车站,餐馆,图书馆等。声音场景分类具有广泛的实际应用,如机器听觉、人机交互等。由于某些场景声音类似(如图书馆和办公室),或者在音频文件中两种或多种场景声音重叠,声音场景分类成为机器学习研究领域中一项具有挑战性的任务。近年来,手动设计的声音特征被成功应用于声音场景分类任务,如频率,能量,倒谱特征等。此外,基于傅立叶变换生成的时频图,通过深度学习方法提取的特征在声音场景分类任务中具有强有力的竞争力,尤其在大规模数据下时频图特征表现优于传统手动设计特征。然而,傅立叶变换下时频图的时间-频率分辨率固定,不能根据信号频率高低调整时间分辨率,成为声音信号识别任务的瓶颈。小波变换考虑海森伯格不确定性,通过局部化分析时间和频率,实现时间-频率的多尺度分析,为提高声音信号分类准确率提供了可能。


    英国帝国理工大学、德国奥格斯堡大学兼任德国audEERING公司CEO的Björn Schuller教授和其博士生任昭等在IEEE/CAA Journal of Automatica Sinica 发表的"Deep Scalogram Representation for Acoustic Scene Classification”一文中,提取小波变换时频图,利用卷积神经网络 (Convolutional Neural Networks, CNNs)和门循环神经网络(Gated Recurrent Neural Networks, GRNNs)实现声音信号特征提取和分类,为提高声音场景分类任务准确率提供了一条可靠途径。

     

pic1.png

图1 本文提出方法框架图


   由于CNNs已被证明能够有效实现图像分类任务,尤其在基于大型图像数据ImageNet的分类任务中表现突出,由此催生出一系列CNNs结构,如AlexNet和VGG。因此,本文针对傅立叶变换和小波变换的时频图,采用CNNs提取深度特征。在现有声音场景分类任务中,采用手动设计的CNNs提取时频图特征被广泛应用。然而,手动设计神经网络鲁棒性低,且运算时间长,因此采用预训练的CNNs提取特征,突破手动设计神经网络的瓶颈。

pic2.png

图 2 基于声音场景信号所提取时频图

   

    在通过CNNs获取时频图深度特征的基础上,Schuller教授等提出采用序列学习实现分类任务。序列学习在时间相关问题中的表现优于静态分类器,如支持向量机 (Support Vector Machines, SVMs)、极限学习机 (Extreme Learning Machines, ELMs)。近年来,序列学习方法在声音信号分类任务中表现突出,且形式多样,主要包括隐马尔可夫模型 (Hidden Markov Models, HMMs)、循环神经网络 (Recurrent Neural Networks, RNNs)、长短时记忆 (Long Short-Term Memory, LSTM) RNNs。GRNNs作为一种特殊的RNNs,相比LSTM-RNNs,具有计算复杂度更低的优势。在真实场景中,场景声音持续时间较长,且随着时间推移声音场景容易发生变化,因此,考虑对声音信号分段提取特征,并采用GRNNs和双向GRNNs (Bidirectional GRNNs, BGRNNs)实现分类任务。


pic3.png

图3 不同特征下GRNN 和 Bidirectional GRNN分类结果图


    本文基于2017年声音场景检测与分类竞赛(IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events, DCASE)中的数据,实现声音场景分类任务。主要作出以下三点贡献:

1) 针对声音场景分类,提出采用小波时频图特征帮助提升单一使用傅立叶变换时频图特征的分类结果;

2) 采用预训练的CNNs提取深度特征,在提升分类准确率的同时缩短计算时间;

3) 采用GRNNs和BGRNNs提升分类结果准确率。


pic4.png

图4 测试集分类混淆矩阵


    针对声音信号片段的傅立叶变换时频图、bump和morse小波变换时频图,采用了CNNs和(B)GRNNs提取特征和分类,实现了声音场景分类任务。在验证集数据上相比DCASE官方分类结果达到显著性提高,在测试集上也实现了分类准确率的提高。在测试集上,当将基于傅立叶变换时频图的模型和基于小波变换时频图的模型融合后,达到最高分类准确率,因此证明小波变换时频图特征有助于提高声音场景分类结果。在未来研究中,Schuller教授团队将考虑采用数据增强方法提高分类结果,如对抗生成网络(Generative Adversarial Networks, GANs)。进一步地,致力于采用遗传学习方法实现CNNs网络的自动设计,减少手工设计成本,优化实验结果。


文章信息


Z. Ren, K. Qian, Z. X. Zhang, V. Pandit, A. Baird, and B. Schuller, “Deep scalogram representations for acoustic scene classification,” IEEE/CAA J. of Autom. Sinica, vol. 5, no. 3, pp. 662-669, May 2018

http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8332139

PDF全文:

Deep Scalogram Representations for Acoustic Scene Classification.pdf



作者简介


任昭(S’17),德国奥格斯堡大学博士研究生,巴伐利亚数据中心Chair of Embedded Intelligence for Health Care and Wellbeing研究助理,工作项目为德国BMBF IKT2020-Grant project EmotAsS,研究内容是语音情感分析。主要研究方向为迁移学习,无监督学习,以及健康应用相关的深度学习算法。


钱昆(S’14),德国慕尼黑工业大学博士研究生。曾在新加坡南洋理工大学,日本东京工业大学,美国卡耐基梅隆大学访问交流。主要研究方向为信号处理,机器学习,生物工程,以及高性能计算系统下的深度学习。


张子兴(M’15),英国帝国理工大学副研究员。发表同行评审的期刊/会议论文超过50篇。主要研究方向为半监督学习,主动学习,以及情感计算相关的深度学习。


Vedhas Pandit (S’11),德国帕绍大学、奥格斯堡大学博士研究生。主要研究方向为音乐信息检索,虚拟语音合成,机器学习,深度学习和生物信号处理。


Alice Baird,德国奥格斯堡大学巴伐利亚数据中心Chair of Embedded Intelligence for Healthcare and Wellbeing研究助理,工作项目为Horizon 2020 DE-ENIGMA,研究内容是发音和语言分析。主要研究方向为健康计算应用和数据录制方法。


Björn Schuller (M’06-SM’15-F’18),德国奥格斯堡大学Chair of Embedded Intelligence for Health Care and Wellbeing终身教授、英国帝国理工大学GLAM – the Group on Language, Audio & Music副教授。IEEE Speech and Language Processing Techinical委员会选任成员,IEEE Transactions on Affective Computing主编,AAAC名誉主席,IEEE Fellow,ACM高级会员。以第一作者和合作作者的身份共出版专著5本,发表通过同行评审的图书,期刊和会议文章超过700篇,共计超过17000次引用,h-index 64。



-----------------------------------------------------------------

网站

http://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=6570654

www.ieee-jas.org

微信:JAS自动化学报英文版

Blog: http://blog.sciencenet.cn/?3291369

Twitter: IEEE/CAA Press

Facebook: Ieee/Caa Press

投稿:https://mc03.manuscriptcentral.com/ieee-jas

Email: jas@ia.ac.cn

Tel: 010-82544459, 010-82544746

----------------------------------------------------------------------------



https://blog.sciencenet.cn/blog-3291369-1108208.html

上一篇:IEEE/CAA JAS 第5卷3期网刊已发布, 敬请关注!
下一篇:基于超像素的均值-均方差暗通道单幅图像去雾方法
收藏 IP: 159.226.19.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-19 07:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部