|
文章导读
声音场景分类,旨在分类指定声音所发生的场景类别,比如火车站,餐馆,图书馆等。声音场景分类具有广泛的实际应用,如机器听觉、人机交互等。由于某些场景声音类似(如图书馆和办公室),或者在音频文件中两种或多种场景声音重叠,声音场景分类成为机器学习研究领域中一项具有挑战性的任务。近年来,手动设计的声音特征被成功应用于声音场景分类任务,如频率,能量,倒谱特征等。此外,基于傅立叶变换生成的时频图,通过深度学习方法提取的特征在声音场景分类任务中具有强有力的竞争力,尤其在大规模数据下时频图特征表现优于传统手动设计特征。然而,傅立叶变换下时频图的时间-频率分辨率固定,不能根据信号频率高低调整时间分辨率,成为声音信号识别任务的瓶颈。小波变换考虑海森伯格不确定性,通过局部化分析时间和频率,实现时间-频率的多尺度分析,为提高声音信号分类准确率提供了可能。
英国帝国理工大学、德国奥格斯堡大学兼任德国audEERING公司CEO的Björn Schuller教授和其博士生任昭等在IEEE/CAA Journal of Automatica Sinica 发表的"Deep Scalogram Representation for Acoustic Scene Classification”一文中,提取小波变换时频图,利用卷积神经网络 (Convolutional Neural Networks, CNNs)和门循环神经网络(Gated Recurrent Neural Networks, GRNNs)实现声音信号特征提取和分类,为提高声音场景分类任务准确率提供了一条可靠途径。