博文

[转载]REA-TTS: 基于检索增强和对比学习的高表现力有声书语音合成

已有 1327 次阅读 2026-2-23 12:18 |系统分类:论文交流|文章来源:转载

REA-TTS: 基于检索增强和对比学习的高表现力有声书语音合成

鲁启航，白炳松，薛锦隆，李雅，高迎明

（北京邮电大学人工智能学院，北京 100876）

摘要：语音合成技术，近年来，已经可以基于参考语音合成出富有表现力的句子级语音。然而，实现高度自然、富有表现力的有声读物语音合成仍然是一个相当大的挑战。为了提升基于参考语音的合成有声读物语音的表现力，提出了一种名为检索增强表现型有声读物文本到语音的方法。这是一种高表现力的语音合成方法，在长文本合成的音色、韵律和情感表达方面可与人类语音相媲美。我们将对比学习和检索增强生成技术应用于一个端到端的语音合成框架中。该框架集成了情感对比学习和参考音频检索功能，它将音频和文本的情感嵌入对齐到同一个潜在空间中。然后，它利用余弦相似度来检索与文本相对应的音频作为参考音频。这一过程增强了有声读物语音合成的自然度和表现力。此外，我们构建了一个拼接式参考语音处理流程，可以改善韵律的变化。提出的方法在语调自然度和情感表现力方面均优于基线系统，有效提升了合成语音的整体感知质量。

关键词：语音合成, 检索增强生成, 对比学习, 有声书

扫二维码浏览全文

Cite this article

Lu, Q., Bai, B., Xue, J. et al. REA-TTS: Retrieval-Augmented Expressive Audiobook Text-to-Speech Generation with Contrastive Language-Audio Learning. J. Shanghai Jiaotong Univ. (Sci.) (2026). https://doi.org/10.1007/s12204-026-2904-2

转载本文请联系原作者获取授权，同时请注明本文来自黄龙旺科学网博客。
链接地址：https://blog.sciencenet.cn/blog-45888-1523103.html

上一篇：[转载]虑边界路段动态时空关联度的城市单拥堵区域弹性边界控制
下一篇：[转载]情感共鸣：探究 AI 生成音乐与真实音乐的情感效果

收藏 IP: 202.120.12.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

黄龙旺

扫一扫，分享此博文

Yetta分享 http://blog.sciencenet.cn/u/yetta

博文

[转载]REA-TTS: 基于检索增强和对比学习的高表现力有声书语音合成

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

黄龙旺

全部作者的其他最新博文

全部精选博文导读

Yetta分享 http://blog.sciencenet.cn/u/yetta

博文

[转载]REA-TTS: 基于检索增强和对比学习的高表现力有声书语音合成

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

黄龙旺

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)