||
声码器是语音合成的主要组件。 它将音频的中间形式(称为声学特征,例如梅尔频谱)转换为可听的声音波形。 最近Shoule Wu和我合作发明了一种新一代的高保真声码器ItoWave。
ItoWave基于伊藤随机微分方程开发。我们提出通过线性Ito随机微分方程,在条件输入下, 如原始声音特征(例如语音梅尔频谱),利用维纳过程作为驱动,在噪声信号中逐渐减去多余的信号, 从而生成现实中对应的有意义的语音。这个过程很像是奥古斯特·罗丹从原始自然的石头中,利用雕刻技术和方法, 从自然的石头中逐渐去掉多余的部分,从而雕刻出思想者。ItoWave由两个随机过程组成,而这两个随机过程分别是线性伊藤随机微分方程和其对应的反向时间伊藤随机微分方程所确定的解。 这两个随机过程,特别是反向的随机过程可以在梅尔谱特征条件下, 生成对应的连续声音。实验结果显示,我们的主观听众评分达到世界最高水平。
ItoWave计划在五月份于新加坡召开的语音领域顶级会议第47届ICASSP2022(国际声学、语音与信号处理大会)上发表。详细的中英文介绍,以及ItoWave合成的声音,请查看下面的[1,2]两个网址。
[1] https://shiziqiang.github.io/ito_audio/
[2] https://wushoule.github.io/ItoAudio/
如果您对该软件感兴趣,欢迎联系Shoule Wu或者我,来试用和测试。有任何问题,随时联系(E-mail:wu.shoule@protonmail.com;电话:13621160486)。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-19 22:09
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社