资源技术动态谷歌推Tacotron 2,搞定绕口令,效果优于WaveNet

谷歌推Tacotron 2,搞定绕口令,效果优于WaveNet

2019-12-11 | |  57 |   0

原标题:谷歌推Tacotron 2,搞定绕口令,效果优于WaveNet

来源:CSDN博客        链接:https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/78859730


让电脑会讲话没什么,但让电脑说得666就不是一件容易事了。


今天,谷歌推出一种直接从文本中合成语音的神经网络结构,即新型TTS(Text-to-Speech,TTS)系统Tacotron 2。Tacotron 2结合了WaveNet和Tacotron的优势,不需要任何语法知识即可直接输出文本对应的语音。


下面是一个Tacotron 2生成的音频案例,效果确实很赞,并且还能区分出单词“read”在过去分词形式下的读音变化。

△ “He has read the whole thing”


超越WaveNet和Tacotron

作为Tacotron 2的基础,WaveNet和Tacotron都是怎样的架构?


去年9月,谷歌DeepMind曾公布了一种用神经网络对原始波形建模的技术,生成的音频效果优于当时的TTS系统。


WaveNet抛弃传统的简单将语音片段机械拼接的TTS方法,从零开始创造整个音频波形输出。不过,WaveNet需要调节来自现有TTS前端的语言特征,相当于它只取代了声码器和声学模型,不是端对端的语音合成系统。

01.gif

                                                 WaveNet架构


今年3月,谷歌的王雨轩等人提出了一种新型端对端语音合成系统Tacotron。它可将接收的输入字符,输出成相应的原始频谱图,然后提供给Griffin-Lim重建算法生成语音。

1576048076744445.jpg

模型架构


Tacotron 2

Tacotron 2由一个循环的序列到序列特征预测网络构成,先将字符嵌入到梅尔刻度(Mel-scale)谱系图中,然后由修正过的WaveNet模型作为vocoder,从这些声谱图中合成时域的波形。


在谷歌的Jonathan Shen,、Ruoming Pang等人和加州大学伯克利分校的Zongheng Yang共同发表的论文Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions中,研究人员介绍了Tacotron 2的工作原理。


他们用序列到序列的模型优化了TTS,将字母序列映射到编码音频的特征序列中。这些特征是一个每12.5毫秒计算一次的80维声谱图,里面不仅有单词的发音,还包括音量、速度和语调等语言的细微差别。


然后,研究人员用一个类似WaveNet的架构,将这些特征转换为24kHz的波形。

03.jpg

△ Tacotron 2的模型架构/图中下半部分为序列到序列模型,该模型将一系列字母映射到一个声谱图上。


测评结果和局限

最后,研究人员抽取了100个音频样例,要求人类听众对不同TTS系统生成语言的自然度评分。测试结果显示,Tacotron 2的平均意见得分约为4.53,明显优于其他模型,仅比专业的录音人员分数(ground truth)低一点。

04.jpg

 △ 不同模型测试音频的平均意见得分(MOS)


在音频结果展示页中可以看到,研究人员对Tacotron 2的生成结果进行了多维度的测评,包括:

● 专有名词及复杂词语

● 同一单词在不同时态及含义上的发音变化

● 拼写错误对发音的影响

● 标点符号位置的影响

● 重点突出部分及语调的把控

● 绕口令


虽然Tacotron 2生成的样品听起来不错,但仍有一些难题有待解决。例如系统在“decorum”和“merlot”等复杂单词的发音方面有困难,可能会随机产生奇怪的声音。


目前,Tacotron 2还不能实时生成音频,也不能将人类的情绪加到生成的声音中。


“每个问题都是一个有趣的研究方向。”谷歌研究人员在博客结尾说。


音频示例及相关资料


如果对上述测评结果感兴趣,可以移步谷歌Github项目页面获取更多信息:

https://google.github.io/tacotron/publications/tacotron2/

论文地址:https://arxiv.org/abs/1712.05884

谷歌博客介绍:https://research.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

【安妮 编译整理】

量子位 出品 | 公众号 QbitAI

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:语音合成技术

下一篇:基于语音合成的韵律表示

用户评价
全部评价

热门资源

  • 应用笔画宽度变换...

    应用背景:是盲人辅助系统,城市环境中的机器导航...

  • GAN之根据文本描述...

    一些比较好玩的任务也就应运而生,比如图像修复、...

  • 端到端语音识别时...

    从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...

  • 人体姿态估计的过...

    人体姿态估计是计算机视觉中一个很基础的问题。从...

  • 谷歌发布TyDi QA语...

    为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi...