资源技术动态基于语音合成的韵律表示

基于语音合成的韵律表示

2019-12-11 | |  107 |   0

原标题:基于语音合成的韵律表示

来源:CSDN博客        链接:https://blog.csdn.net/u013453936/article/details/101836285


传统韵律的表达方式一般由语言学家定义,分为重读、音调、节奏感等,这种方式需要通过标签数据去学习韵律的表示。大量的标签数据往往消耗较多的人力,且难以保持高度的标注一致性。探索一种基于深度学习自动学习韵律特征表示的方式,对应用场景如语音合成、发音韵律评估、韵律反馈等具有较大的意义。本文将对现有的语音合成应用中的韵律表示进行阐释。

1576048690688060.png 

图 1 Deep voice 1


Deep voice系列由百度出品,为了使合成语音更加自然,deep voice1和deep voice2 [1][2]中都加入了韵律相关的建模。Deep voice 1将F0与duration进行单独建模,在合成阶段融合这两个模型的结果进行语音合成,deep voice2为了简化模型,将语音合成进行端到端建模,在模型中加入duration预测和F0预测。

1576048737474723.png

图 2 Deep voice 2

 

1576048763384231.png

图 3 Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron


Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron基于Tacotron [6]语音合成模型,在其中加入学习好的韵律embedding。其中韵律embedding主要通过输入参考音频,经过多层encoder,输入到Tacotron中,进行重构损失计算。最后提出多项指标如参考音频与合成音频F0,mel系数的差异,评估学习到的韵律embedding是否有效。实验中发现,如果采用与参考音频不相同的文本,韵律将会变动很大,表明学到的韵律表示中除了包含韵律相关的因素,也包含文本相关的因素,且学习到的韵律表示更多是模仿复制参考音频,没有学到相对韵律变化。这里面有个思考的点是为什么会学习到文本相关因素,在加入了包含text embedding模型后。是不是因为文本 embedding和韵律embedding同时学习,没有达到相互排斥作用。


目前解决之前出现的问题主要有两种做法。


文献Uncovering Latent Style Factors for Expressive Speech Synthesis随机初始化多个风格向量,与文本向量进行加权相加,其中权重可由网络自动训练得到。在Tacotron模型结构的基础上,在解码出添加两者的加权和。这种方法解决了两个问题:1、韵律表示包含信息杂乱:首先将韵律分解成多种风格进行加权求和,每种风格类似于韵律的原子表示,学习到更有效的韵律特征;2、韵律表示包含文本信息:将文本信息与韵律表示进行加权,达到两者因素互斥的效果。文中解释说该模型有效结合了基于文本表示的后验信息(给定文本)与基于韵律表示的先验信息。

1576048823285114.png

图 4 Uncovering Latent Style Factors for Expressive Speech Synthesis


文献Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis在Tacotron的基础上,加入了参考音频进行韵律表示的学习,与[4]类似,将韵律表示进一步分解成多种风格,对多种风格进行加权求和。该方法中将学到的韵律表示输入到文本encoder中,可以排除文本对韵律表示学习的影响。同时,由于输入参考音频进行韵律学习,学习到的韵律表示与训练数据将有很大的关系。实验做了几组实验:1、不同噪声的参考音频等。经过编码,学到的韵律表示经过聚类可以将音频分为噪声和非噪声2、不同发音者的参考音频,经过参考encoder的到的风格表示,经过聚类,可以聚类分成不同发音者。结果如图6所示。3、英语语音识别中,混杂少量西班牙语,由于西班牙语音调较高,使用西班牙参考音频,对英语文本进行迁移,将合成文本混合到语料中,可以降低wer。

1576048890794768.png

图 5 Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

1576048947791372.png

图 6 噪声音频聚类与多人说话聚类实验图

   

本文介绍了语音合成中的韵律表示研究,为了提取高质量的韵律embedding,可以人工添加一些有效特征如F0、duration进行训练,也可以通过分解韵律表示提取多个有效的韵律表示原子特征,同时需要排除文本、人物身份特征等因素的影响。

[1] Deep Voice: Real-time Neural Text-to-Speech

[2] Deep Voice 2 Multi-Speaker Neural Text-to-Speech

[3] Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

[4] Uncovering Latent Style Factors for Expressive Speech Synthesis

[5] Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

[6] Tacotron: Towards End-to-End Speech Synthesis

————————————————

版权声明:本文为CSDN博主「夏天的米米阳光」的原创文章

原文链接:https://blog.csdn.net/u013453936/article/details/101836285

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:谷歌推Tacotron 2,搞定绕口令,效果优于WaveNet

下一篇:语音合成基本参数

用户评价
全部评价

热门资源

  • 应用笔画宽度变换...

    应用背景:是盲人辅助系统,城市环境中的机器导航...

  • GAN之根据文本描述...

    一些比较好玩的任务也就应运而生,比如图像修复、...

  • 端到端语音识别时...

    从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...

  • 人体姿态估计的过...

    人体姿态估计是计算机视觉中一个很基础的问题。从...

  • 谷歌发布TyDi QA语...

    为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi...