资源行业动态微软的FastSpeech AI加速真实声音的生成

微软的FastSpeech AI加速真实声音的生成

2020-01-08 | |  81 |   0

原标题:NLP底层技术之句法分析      

源:TedLium      链接:http://www.atyun.com/48022.html


最先进的文本语音转换模型生成的声音,提起来与人类声音几乎相差无几。它们支持谷歌助手提供的神经声音,以及最近Alexa和亚马逊Polly服务提供的新闻播报员声音。但因为大多数模型共享相同的合成方法——生成一个mel-spectrogram的表示文本,然后使用声码器合成语音,所以,这些模型有一个相同的缺点。即——推理mel-spectrogram代缓慢,容易重复或跳过单词。


为了解决这个问题,来自微软和浙江大学的研究人员开发了一种新型的机器学习模型,FastSpeech。据开发团队在温哥华的NeurIPS 2019会议上发表的论文介绍,该模型具有一个独特的体系结构,不仅能提高性能,还可以消除单词重复或跳过的问题。

 image.png

FastSpeech的长度调节器,可以调节mel-光谱图序列和音素序列之间的差异。由于音素序列的长度总是小于mel谱图序列的长度,所以一个音素对应几个mel谱图。然后,长度调整器根据持续时间扩展音素序列,使其与mel-光谱图序列的长度相匹配。(一个互补的持续时间预测成分决定了每个音素的持续时间。)最后,增加或减少与音素对齐的melb谱图数量或音素持续时间,按比例调整语速。


为了验证FastSpeech的有效性,研究人员将其与开源的LJ语音数据集和相应的文本进行了测试。在将语料库随机分为12500个训练样本、300个验证样本和300个测试样本后,他们对语音质量、鲁棒性等进行了一系列详细的评估与检测。


该团队报告称,FastSpeech的质量几乎与谷歌的Tacotron 2文本语音转换模型的质量相当,并且在鲁棒性方面明显优于领先的、基于变压器的模型,有效错误率为0%,基线错误率为34%。此外,它还能够将生成声音的速度,从0.5倍提高到1.5倍且不损失准确性。

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:华为VR Glass正式开售,科技感十足

下一篇:谷歌助手现在可以在智能手机上解释44种语言

用户评价
全部评价

热门资源

  • 国内人才报告:机...

    近日,BOSS 直聘职业科学实验室 &BOSS 直聘研究院...

  • AI使物联网更智能...

    看到微软对物联网和人工智能的结合感兴趣是一个明...

  • 推荐一批学习自然...

    这里推荐一批学习自然语言处理相关的书籍,当然,...

  • 安防智能化大势下...

    大部分传统安防设备不仅拍摄视野有限,而且无法事...

  • 20亿创业基金、10...

    近日,杭州举办了建设国家新一代人工智能创新发展...