||
基于时频多聚合和交叉高斯注意力的环境声音事件分类
王彦雯1,2,曹毅1,2,施杨洋1,2
(1. 江南大学 机械工程学院,江苏无锡 214122;2. 江苏省食品先进制造装备技术重点实验室,江苏无锡 214122)
摘要:针对现有深度学习方法进行声音事件分类研究时模型复杂度较高、分类准确率较低的问题,提出一种基于时频多聚合和交叉高斯注意力的声音事件分类方法。首先,基于时频分离卷积原理,提出一种时频多聚合卷积算法;该算法经非对称卷积结构实现时频分离与聚合,以生成一阶时频聚合特征图;随后采用时频双路通道注意力强化时频关键信息权重,并在通道维度再聚合生成二阶时频聚合特征图,从而增强模型感受野和表征能力。其次,在时频多聚合卷积的基础上,构建时频多聚合和交叉高斯注意力网络(TFMA-CGA);该网络采用特征金字塔和交叉高斯注意力,旨在实现由浅到深的层级融合的同时增强全局关联,从而提高模型分类准确率。最后,基于UrbanSound8K、DCASE2019、DCASE2020数据集,开展声音事件分类实验。实验结果表明:基于时频多聚合和交叉高斯注意力方法可较好增强模型感受野,有效整合全局上下文信息,缓解特征坍塌并提升模型表征能力;在三个数据集上最佳分类准确率分别达到93.78%、73.76%、69.91%,模型参数量和MFLOPS优于许多主流方法,从而验证了方法的有效性。
关键词:声音事件分类,时频多聚合,交叉高斯注意力,特征金字塔
扫二维码浏览全文

Cite this article
Wang, Y., Cao, Y. & Shi, Y. Time-Frequency Multi-Aggregation and Cross Gaussian Attention for Environmental Acoustic Scene Classification. J. Shanghai Jiaotong Univ. (Sci.) (2026). https://doi.org/10.1007/s12204-026-2908-y

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-14 12:53
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社