博文

[转载]融合多尺度声学特征与状态空间模型的语音分离方法

已有 439 次阅读 2026-5-10 10:08 |系统分类:论文交流|文章来源:转载

融合多尺度声学特征与状态空间模型的语音分离方法

项旺¹，周健¹，陈玉杰¹，樊帅²，周强²，吕钊¹，范存航¹

（1. 安徽大学计算机科学与技术学院，合肥 230000；2. 思必驰科技股份有限公司，江苏苏州 215000）

摘要: 语音分离旨在从重叠的混合语音信号中分离出目标语音。现有语音分离方法在长序列音频建模方面能力受限，同时往往伴随较高的计算复杂度。近年来的研究强调多尺度特征对音频建模的重要性，但在长序列音频中仍受限于语义内容同质化带来的冗余问题。为解决上述问题，本文提出一种基于改进状态空间模型（SS-SSM）的语音分离网络，命名为 MSMa-Net。具体而言，我们将输入混合语音分解为不同分辨率下的多尺度表示，从而编码丰富的多尺度声学特征；随后引入 SS-SSM 以削减多尺度特征中的语义冗余，增强模型对长时程音频的建模能力。实验结果表明：MSMa-Net 在降低计算复杂度与推理时延的同时，性能可与当前先进方法相当，具备良好的工程应用潜力。

关键词: 语音分离, 状态空间模型, 长序列建模

扫二维码浏览全文

Cite this article

Xiang, W., Zhou, J., Chen, Y. et al. Integrating Multi-Scale Acoustic Features with State Space Model for Speech Separation. J. Shanghai Jiaotong Univ. (Sci.) (2026). https://doi.org/10.1007/s12204-026-2912-2