博文

[转载]基于时频多聚合和交叉高斯注意力的环境声音事件分类

已有 1178 次阅读 2026-3-12 16:28 |系统分类:论文交流|文章来源:转载

基于时频多聚合和交叉高斯注意力的环境声音事件分类

王彦雯^1,2，曹毅^1,2，施杨洋^1,2

（1. 江南大学机械工程学院，江苏无锡 214122；2. 江苏省食品先进制造装备技术重点实验室，江苏无锡 214122）

摘要：针对现有深度学习方法进行声音事件分类研究时模型复杂度较高、分类准确率较低的问题，提出一种基于时频多聚合和交叉高斯注意力的声音事件分类方法。首先，基于时频分离卷积原理，提出一种时频多聚合卷积算法；该算法经非对称卷积结构实现时频分离与聚合，以生成一阶时频聚合特征图；随后采用时频双路通道注意力强化时频关键信息权重，并在通道维度再聚合生成二阶时频聚合特征图，从而增强模型感受野和表征能力。其次，在时频多聚合卷积的基础上，构建时频多聚合和交叉高斯注意力网络（TFMA-CGA）；该网络采用特征金字塔和交叉高斯注意力，旨在实现由浅到深的层级融合的同时增强全局关联，从而提高模型分类准确率。最后，基于UrbanSound8K、DCASE2019、DCASE2020数据集，开展声音事件分类实验。实验结果表明：基于时频多聚合和交叉高斯注意力方法可较好增强模型感受野，有效整合全局上下文信息，缓解特征坍塌并提升模型表征能力；在三个数据集上最佳分类准确率分别达到93.78%、73.76%、69.91%，模型参数量和MFLOPS优于许多主流方法，从而验证了方法的有效性。

关键词：声音事件分类，时频多聚合，交叉高斯注意力，特征金字塔

扫二维码浏览全文

Cite this article

Wang, Y., Cao, Y. & Shi, Y. Time-Frequency Multi-Aggregation and Cross Gaussian Attention for Environmental Acoustic Scene Classification. J. Shanghai Jiaotong Univ. (Sci.) (2026). https://doi.org/10.1007/s12204-026-2908-y