||
结合目标说话人存在与否验证的说话人提取
张克1, 2,BORSDORF Marvin 3,柳天驰4,王帅2,魏阳杰1,李海洲2, 3, 4
(1. 东北大学 医学影像智能计算教育部重点实验室,沈阳110819;2. 香港中文大学(深圳) 数据科学学院;深圳市大数据研究院,广东深圳518000;3. 不来梅大学 机器听觉实验室,德国不莱梅28359;4. 新加坡国立大学 电子与计算机工程系,新加坡119077,新加坡)
摘要:目标说话人提取模型旨在从鸡尾酒会混合信号中提取目标语音。当仅使用目标说话人存在的样本进行训练时,在目标说话人不存在的情况下,说话人提取模型将会输出干扰语音或噪声。通过提供目标说话人存在与否的信息,可以提升目标语音的提取质量。然而,目标说话人的检测并非总是准确的。本文提出了一种新模型TSEV,能够同时执行目标说话人提取和说话人验证任务。TSEV模型在每次推理中输出提取的语音并生成两个说话人嵌入,用于检测目标说话人。通过共享说话人编码器和低层模块,该模型在低信噪比场景下也能执行说话人验证任务。在目标说话人存在场景和缺失场景下的全重叠多说话人语音数据集上对TSEV模型进行了训练。实验结果表明:提出的模型通过联合执行两项任务,不仅提升了验证性能,同时与基线相比,提取性能也未受到影响。
关键词:鸡尾酒会问题,目标说话人提取,说话人验证,选择听觉注意力,说话人缺失
Zhang, K., Borsdorf, M., Liu, T. et al. Speaker Extraction with Verification of Present and Absent Target Speakers. J. Shanghai Jiaotong Univ. (Sci.) (2025). https://doi.org/10.1007/s12204-025-2798-4
《上海交通大学学报(英文版)》是由教育部主管、上海交通大学主办的自然科学综合性学术期刊,被 EI、Scopus等检索系统收录。主要刊登反映基础理论和工程领域实验研究的最新成果,如电子工程和自动化、计算机和通信工程、船舶海洋和建筑工程、材料科学与工程以及生物医学工程等。从 2021 年开始,《上海交通大学学报(英文版)》主要刊登医工交叉研究和人工智能及其在工程中的应用成果。
英文版主页:https://xuebao.sjtu.edu.cn/sjtu_en/EN/1007-1172/home.shtml
英文版 on Springer:https://link.springer.com/journal/12204
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-2-13 13:04
Powered by ScienceNet.cn
Copyright © 2007-2025 中国科学报社