基于语音合成的韵律表示

资源分类

基于语音合成的韵律表示

2019-12-11 |

107 |

原标题：基于语音合成的韵律表示

来源：CSDN博客链接：https://blog.csdn.net/u013453936/article/details/101836285

传统韵律的表达方式一般由语言学家定义，分为重读、音调、节奏感等，这种方式需要通过标签数据去学习韵律的表示。大量的标签数据往往消耗较多的人力，且难以保持高度的标注一致性。探索一种基于深度学习自动学习韵律特征表示的方式，对应用场景如语音合成、发音韵律评估、韵律反馈等具有较大的意义。本文将对现有的语音合成应用中的韵律表示进行阐释。

图 1 Deep voice 1

Deep voice系列由百度出品，为了使合成语音更加自然，deep voice1和deep voice2 [1][2]中都加入了韵律相关的建模。Deep voice 1将F0与duration进行单独建模，在合成阶段融合这两个模型的结果进行语音合成，deep voice2为了简化模型，将语音合成进行端到端建模，在模型中加入duration预测和F0预测。

图 2 Deep voice 2

图 3 Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron基于Tacotron [6]语音合成模型，在其中加入学习好的韵律embedding。其中韵律embedding主要通过输入参考音频，经过多层encoder,输入到Tacotron中，进行重构损失计算。最后提出多项指标如参考音频与合成音频F0，mel系数的差异，评估学习到的韵律embedding是否有效。实验中发现，如果采用与参考音频不相同的文本，韵律将会变动很大，表明学到的韵律表示中除了包含韵律相关的因素，也包含文本相关的因素，且学习到的韵律表示更多是模仿复制参考音频，没有学到相对韵律变化。这里面有个思考的点是为什么会学习到文本相关因素，在加入了包含text embedding模型后。是不是因为文本 embedding和韵律embedding同时学习，没有达到相互排斥作用。

目前解决之前出现的问题主要有两种做法。

文献Uncovering Latent Style Factors for Expressive Speech Synthesis随机初始化多个风格向量，与文本向量进行加权相加，其中权重可由网络自动训练得到。在Tacotron模型结构的基础上，在解码出添加两者的加权和。这种方法解决了两个问题：1、韵律表示包含信息杂乱：首先将韵律分解成多种风格进行加权求和，每种风格类似于韵律的原子表示，学习到更有效的韵律特征；2、韵律表示包含文本信息：将文本信息与韵律表示进行加权，达到两者因素互斥的效果。文中解释说该模型有效结合了基于文本表示的后验信息（给定文本）与基于韵律表示的先验信息。

图 4 Uncovering Latent Style Factors for Expressive Speech Synthesis

文献Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis在Tacotron的基础上，加入了参考音频进行韵律表示的学习，与[4]类似，将韵律表示进一步分解成多种风格，对多种风格进行加权求和。该方法中将学到的韵律表示输入到文本encoder中，可以排除文本对韵律表示学习的影响。同时，由于输入参考音频进行韵律学习，学习到的韵律表示与训练数据将有很大的关系。实验做了几组实验：1、不同噪声的参考音频等。经过编码，学到的韵律表示经过聚类可以将音频分为噪声和非噪声2、不同发音者的参考音频，经过参考encoder的到的风格表示，经过聚类，可以聚类分成不同发音者。结果如图6所示。3、英语语音识别中，混杂少量西班牙语，由于西班牙语音调较高，使用西班牙参考音频，对英语文本进行迁移，将合成文本混合到语料中，可以降低wer。