||
De-Codec:在编解码器中解耦语音和背景声以便为下游音频任务进行明确的特征选择
罗笑雪1,2,黄晋维1,2,崔子豪1,2,李涛1,2,陈亚楠1,2,高莹莹1,2,邓超1,2,张世磊1,2,冯俊兰1,2
(1. 九天研究院,北京 100032;2. 北京大学 多媒体信息处理全国重点实验室,北京 100871)
摘要:本文提出一种名为De-Codec的音频解耦编解码器,该方法在输入音频的离散化表征过程中将语音与背景声表征进行解耦,使下游音频任务能够显式地选择所需信息的表征作为输入。为实现完全解耦,在编码器-解码器网络中设计了双路径离散化模块,分别对语音和背景声进行独立的表征离散化处理。此外,提出了表征交换训练方法:替换输入音频中的背景声表征,并监督De-Codec使用替换后的背景声表征重建原始音频。实验结果表明,该解码器能在保持音频重建性能的同时实现语音与背景声离散表征的完全解耦。下游的语音去噪与背景声替换任务验证了De-Codec所提取的离散化解耦表征对下游音频任务的有效性。
关键词:音频编解码器,语音与背景声解耦,语音去噪,背景声替换
扫二维码浏览全文

Cite this article
Luo, X., Huang, J., Cui, Z. et al. De-Codec: Decoupling Speech and Background-Sound in Codec to Allow Explicit Feature Selections for Downstream Audio Tasks. J. Shanghai Jiaotong Univ. (Sci.) (2026). https://doi.org/10.1007/s12204-026-2916-y

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-30 06:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社