Yetta分享 http://blog.sciencenet.cn/u/yetta

博文

[转载]基于时频多聚合和交叉高斯注意力的环境声音事件分类

已有 431 次阅读 2026-3-12 16:28 |系统分类:论文交流|文章来源:转载

基于时频多聚合和交叉高斯注意力的环境声音事件分类

王彦雯1,2,曹毅1,2,施杨洋1,2

1. 江南大学 机械工程学院,江苏无锡 2141222. 江苏省食品先进制造装备技术重点实验室,江苏无锡 214122 

摘要:针对现有深度学习方法进行声音事件分类研究时模型复杂度较高、分类准确率较低的问题,提出一种基于时频多聚合和交叉高斯注意力的声音事件分类方法。首先,基于时频分离卷积原理,提出一种时频多聚合卷积算法;该算法经非对称卷积结构实现时频分离与聚合,以生成一阶时频聚合特征图;随后采用时频双路通道注意力强化时频关键信息权重,并在通道维度再聚合生成二阶时频聚合特征图,从而增强模型感受野和表征能力。其次,在时频多聚合卷积的基础上,构建时频多聚合和交叉高斯注意力网络(TFMA-CGA);该网络采用特征金字塔和交叉高斯注意力,旨在实现由浅到深的层级融合的同时增强全局关联,从而提高模型分类准确率。最后,基于UrbanSound8KDCASE2019DCASE2020数据集,开展声音事件分类实验。实验结果表明:基于时频多聚合和交叉高斯注意力方法可较好增强模型感受野,有效整合全局上下文信息,缓解特征坍塌并提升模型表征能力;在三个数据集上最佳分类准确率分别达到93.78%73.76%69.91%,模型参数量和MFLOPS优于许多主流方法,从而验证了方法的有效性。

关键词:声音事件分类,时频多聚合,交叉高斯注意力,特征金字塔

扫二维码浏览全文 

 M25-079GInfo.bmp

Cite this article

Wang, Y., Cao, Y. & Shi, Y. Time-Frequency Multi-Aggregation and Cross Gaussian Attention for Environmental Acoustic Scene Classification. J. Shanghai Jiaotong Univ. (Sci.) (2026). https://doi.org/10.1007/s12204-026-2908-y

M25-079_GraphAbstract.jpg



https://blog.sciencenet.cn/blog-45888-1525521.html

上一篇:[转载]情感共鸣:探究 AI 生成音乐与真实音乐的情感效果
下一篇:[转载]无真实标注条件下的光流模型优化方法设计
收藏 IP: 202.120.12.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-3-15 03:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部