||
融合多尺度声学特征与状态空间模型的语音分离方法
项旺1,周健1,陈玉杰1,樊帅2,周强2,吕钊1,范存航1
(1. 安徽大学 计算机科学与技术学院,合肥 230000;2. 思必驰科技股份有限公司,江苏苏州 215000)
摘要: 语音分离旨在从重叠的混合语音信号中分离出目标语音。现有语音分离方法在长序列音频建模方面能力受限,同时往往伴随较高的计算复杂度。近年来的研究强调多尺度特征对音频建模的重要性,但在长序列音频中仍受限于语义内容同质化带来的冗余问题。为解决上述问题,本文提出一种基于改进状态空间模型(SS-SSM)的语音分离网络,命名为 MSMa-Net。具体而言,我们将输入混合语音分解为不同分辨率下的多尺度表示,从而编码丰富的多尺度声学特征;随后引入 SS-SSM 以削减多尺度特征中的语义冗余,增强模型对长时程音频的建模能力。实验结果表明:MSMa-Net 在降低计算复杂度与推理时延的同时,性能可与当前先进方法相当,具备良好的工程应用潜力。
关键词: 语音分离, 状态空间模型, 长序列建模
扫二维码浏览全文

Cite this article
Xiang, W., Zhou, J., Chen, Y. et al. Integrating Multi-Scale Acoustic Features with State Space Model for Speech Separation. J. Shanghai Jiaotong Univ. (Sci.) (2026). https://doi.org/10.1007/s12204-026-2912-2

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-30 06:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社