Yetta分享 http://blog.sciencenet.cn/u/yetta

博文

[转载]De-Codec:在编解码器中解耦语音和背景声以便为下游音频任务进行明确的特征选择

已有 329 次阅读 2026-5-12 09:52 |系统分类:论文交流|文章来源:转载

De-Codec:在编解码器中解耦语音和背景声以便为下游音频任务进行明确的特征选择

罗笑雪1,2,黄晋维1,2,崔子豪1,2,李涛1,2,陈亚楠1,2,高莹莹1,2,邓超1,2,张世磊1,2,冯俊兰1,2

1. 九天研究院,北京 1000322. 北京大学 多媒体信息处理全国重点实验室,北京 100871

 

摘要:本文提出一种名为De-Codec的音频解耦编解码器,该方法在输入音频的离散化表征过程中将语音与背景声表征进行解耦,使下游音频任务能够显式地选择所需信息的表征作为输入。为实现完全解耦,在编码器-解码器网络中设计了双路径离散化模块,分别对语音和背景声进行独立的表征离散化处理。此外,提出了表征交换训练方法:替换输入音频中的背景声表征,并监督De-Codec使用替换后的背景声表征重建原始音频。实验结果表明,该解码器能在保持音频重建性能的同时实现语音与背景声离散表征的完全解耦。下游的语音去噪与背景声替换任务验证了De-Codec所提取的离散化解耦表征对下游音频任务的有效性。

关键词:音频编解码器,语音与背景声解耦,语音去噪,背景声替换

扫二维码浏览全文   

 M25-091GInfo.bmp

Cite this article

Luo, X., Huang, J., Cui, Z. et al. De-Codec: Decoupling Speech and Background-Sound in Codec to Allow Explicit Feature Selections for Downstream Audio Tasks. J. Shanghai Jiaotong Univ. (Sci.) (2026). https://doi.org/10.1007/s12204-026-2916-y

M25-091_GraphAbstract.jpg



https://blog.sciencenet.cn/blog-45888-1534467.html

上一篇:[转载]将错误映射至正确:促进语音摘要中的大语言模型自我修正
下一篇:[转载]SHURUI-S系统:一款可适配不同鞘管结构的多臂单孔连续体手术机器人
收藏 IP: 202.120.12.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-5-30 06:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部