微软的FastSpeech AI加速真实声音的生成

资源分类

2020-01-08 |

81 |

原标题：NLP底层技术之句法分析

来源：TedLium 链接：http://www.atyun.com/48022.html

最先进的文本语音转换模型生成的声音，提起来与人类声音几乎相差无几。它们支持谷歌助手提供的神经声音，以及最近Alexa和亚马逊Polly服务提供的新闻播报员声音。但因为大多数模型共享相同的合成方法——生成一个mel-spectrogram的表示文本，然后使用声码器合成语音，所以，这些模型有一个相同的缺点。即——推理mel-spectrogram代缓慢，容易重复或跳过单词。

为了解决这个问题，来自微软和浙江大学的研究人员开发了一种新型的机器学习模型，FastSpeech。据开发团队在温哥华的NeurIPS 2019会议上发表的论文介绍，该模型具有一个独特的体系结构，不仅能提高性能，还可以消除单词重复或跳过的问题。

FastSpeech的长度调节器，可以调节mel-光谱图序列和音素序列之间的差异。由于音素序列的长度总是小于mel谱图序列的长度，所以一个音素对应几个mel谱图。然后，长度调整器根据持续时间扩展音素序列，使其与mel-光谱图序列的长度相匹配。(一个互补的持续时间预测成分决定了每个音素的持续时间。)最后，增加或减少与音素对齐的melb谱图数量或音素持续时间，按比例调整语速。

为了验证FastSpeech的有效性，研究人员将其与开源的LJ语音数据集和相应的文本进行了测试。在将语料库随机分为12500个训练样本、300个验证样本和300个测试样本后，他们对语音质量、鲁棒性等进行了一系列详细的评估与检测。

该团队报告称，FastSpeech的质量几乎与谷歌的Tacotron 2文本语音转换模型的质量相当，并且在鲁棒性方面明显优于领先的、基于变压器的模型，有效错误率为0%，基线错误率为34%。此外，它还能够将生成声音的速度，从0.5倍提高到1.5倍且不损失准确性。

一THE END一

免责声明：本文来自互联网新闻客户端自媒体，不代表本网的观点和立场。

合作及投稿邮箱：E-mail:editor@tusaishared.com

上一篇：华为VR Glass正式开售，科技感十足

下一篇：谷歌助手现在可以在智能手机上解释44种语言

用户评价