博文

[转载]REA-TTS: 基于检索增强和对比学习的高表现力有声书语音合成

已有 1708 次阅读 2026-2-23 12:18 |系统分类:论文交流|文章来源:转载

REA-TTS: 基于检索增强和对比学习的高表现力有声书语音合成

鲁启航，白炳松，薛锦隆，李雅，高迎明

（北京邮电大学人工智能学院，北京 100876）

摘要：语音合成技术，近年来，已经可以基于参考语音合成出富有表现力的句子级语音。然而，实现高度自然、富有表现力的有声读物语音合成仍然是一个相当大的挑战。为了提升基于参考语音的合成有声读物语音的表现力，提出了一种名为检索增强表现型有声读物文本到语音的方法。这是一种高表现力的语音合成方法，在长文本合成的音色、韵律和情感表达方面可与人类语音相媲美。我们将对比学习和检索增强生成技术应用于一个端到端的语音合成框架中。该框架集成了情感对比学习和参考音频检索功能，它将音频和文本的情感嵌入对齐到同一个潜在空间中。然后，它利用余弦相似度来检索与文本相对应的音频作为参考音频。这一过程增强了有声读物语音合成的自然度和表现力。此外，我们构建了一个拼接式参考语音处理流程，可以改善韵律的变化。提出的方法在语调自然度和情感表现力方面均优于基线系统，有效提升了合成语音的整体感知质量。

关键词：语音合成, 检索增强生成, 对比学习, 有声书

扫二维码浏览全文

Cite this article

Lu, Q., Bai, B., Xue, J. et al. REA-TTS: Retrieval-Augmented Expressive Audiobook Text-to-Speech Generation with Contrastive Language-Audio Learning. J. Shanghai Jiaotong Univ. (Sci.) (2026). https://doi.org/10.1007/s12204-026-2904-2