Yetta分享 http://blog.sciencenet.cn/u/yetta

博文

[转载]融合多尺度声学特征与状态空间模型的语音分离方法

已有 304 次阅读 2026-5-10 10:08 |系统分类:论文交流|文章来源:转载

融合多尺度声学特征与状态空间模型的语音分离方法

项旺1,周健1,陈玉杰1,樊帅2,周强2,吕钊1,范存航1

(1. 安徽大学 计算机科学与技术学院,合肥 230000;2. 思必驰科技股份有限公司,江苏苏州 215000)

 

摘要: 语音分离旨在从重叠的混合语音信号中分离出目标语音。现有语音分离方法在长序列音频建模方面能力受限,同时往往伴随较高的计算复杂度。近年来的研究强调多尺度特征对音频建模的重要性,但在长序列音频中仍受限于语义内容同质化带来的冗余问题。为解决上述问题,本文提出一种基于改进状态空间模型(SS-SSM)的语音分离网络,命名为 MSMa-Net。具体而言,我们将输入混合语音分解为不同分辨率下的多尺度表示,从而编码丰富的多尺度声学特征;随后引入 SS-SSM 以削减多尺度特征中的语义冗余,增强模型对长时程音频的建模能力。实验结果表明:MSMa-Net 在降低计算复杂度与推理时延的同时,性能可与当前先进方法相当,具备良好的工程应用潜力。

关键词: 语音分离, 状态空间模型, 长序列建模

扫二维码浏览全文  

 M25-065GInfo.bmp

Cite this article

Xiang, W., Zhou, J., Chen, Y. et al. Integrating Multi-Scale Acoustic Features with State Space Model for Speech Separation. J. Shanghai Jiaotong Univ. (Sci.) (2026). https://doi.org/10.1007/s12204-026-2912-2

M25-065_GraphAbstract.jpg



https://blog.sciencenet.cn/blog-45888-1534204.html

上一篇:[转载]可重构智能表面辅助WLAN系统中的被动多目标定位
下一篇:[转载]M3DFuseNet:一种集成3D多序列全局–局部信息的融合网络用于肝细胞癌微血管侵犯的术前预测
收藏 IP: 202.120.12.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-5-30 06:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部