最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

2019-10-25 |

|

62 |

0

原标题：最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

原文来自：今日头条

第一个全卷积语音识别工具包wav2letter++开源了。

出品方Facebook称之为现有“最快的、顶尖水平的”语音识别系统。

抛开广告法不谈，我们来全面了解一下wav2letter++，看看Facebook哪来的勇气口出狂言。

wav2letter++由Facebook AI研究院（FAIR）的语音团队推出，以C++写成，使用了ArrayFire张量库和flashlight机器学习库。

Facebook还说，它是第一个完全由C++写成的语音识别系统，也是第一个全卷积语音识别系统。

所谓“全卷积”，指的是wav2letter++在从声波到文本的处理过程中，所有可学习的部件都是由卷积层构成的，声音建模、语言建模任务全部由CNN完成。

一般来说，在声音和语言建模任务上，循环网络架构才是更常用的。不过，CNN构成的wav2letter++在性能上也不输那些RNN模型。

Facebook团队在论文中，将他们的wav2letter++和其他主流开源语音识别系统做了比较。

他们说，某些情况下，wav2letter++训练语音识别端到端神经网络速度是其他框架2倍还多，而且用1亿个参数的模型测试，使用从1到64个GPU，训练时间是线性变化的。

其实，wav2letter++还有个不带加号的前身，叫做wav2letter，用Lua语言写成。现在，新版占用了原版的GitHub仓库地址，而原来的wav2letter被放到了wav2letter-lua分支下。

想要复现wav2letter++也不难。因为它使用的机器学习库flashlight也同时开源了。这个机器学习库用现代的C++即时编译，CPU、GPU都可用，以求效率和规模的最大化。

最后，附上传送门~

GitHub地址：

https://github.com/facebookresearch/wav2letter

论文：

wav2letter++: The Fastest Open-source Speech Recognition System

Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert

https://arxiv.org/pdf/1812.07625.pdf

— 完 —

量子位 QbitAI · 头条号签约作者

一THE END一

免责声明：本文来自互联网新闻客户端自媒体，不代表本网的观点和立场。

合作及投稿邮箱：E-mail:editor@tusaishared.com

上一篇：如何用NLP来反映我自己的FaceBook数据？

下一篇：语音识别开源工具PyTorch-Kaldi：兼顾Kaldi效率与PyTorch灵活性

用户评价

全部评价

热门资源

应用笔画宽度变换...

应用背景：是盲人辅助系统，城市环境中的机器导航...
人体姿态估计的过...

人体姿态估计是计算机视觉中一个很基础的问题。从...
GAN之根据文本描述...

一些比较好玩的任务也就应运而生，比如图像修复、...
端到端语音识别时...

从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...
谷歌发布TyDi QA语...

为了鼓励对多语言问答技术的研究，谷歌发布了 TyDi...

智能在线

400-630-6780
聆听.建议反馈

E-mail: support@tusaishared.com