资源行业动态最强CNN语音识别算法开源:词错率5% Facebook出品

最强CNN语音识别算法开源:词错率5% Facebook出品

2019-12-23 | |  115 |   0

原标题:最强CNN语音识别算法开源:词错率5% Facebook出品

来源:AI中国网         链接:https://www.cnaiplus.com/a/voicerecog/713489.html


夏乙 发自 麦蒿寺


第一个全卷积语音识别工具包wav2letter++开源了。

出品方Facebook称之为现有 最快的、顶尖水平的 语音识别系统。

抛开广告法不谈,我们来全面了解一下wav2letter++,看看Facebook哪来的勇气口出狂言。

wav2letter++由Facebook AI研究院(FAIR)的语音团队推出,以C++写成,使用了ArrayFire张量库和flashlight机器学习库。


Facebook还说,它是第一个完全由C++写成的语音识别系统,也是第一个全卷积语音识别系统。


所谓 全卷积 ,指的是wav2letter++在从声波到文本的处理过程中,所有可学习的部件都是由卷积层构成的,声音建模、语言建模任务全部由CNN完成。


一般来说,在声音和语言建模任务上,循环网络架构才是更常用的。不过,CNN构成的wav2letter++在性能上也不输那些RNN模型。


Facebook团队在论文中,将他们的wav2letter++和其他主流开源语音识别系统做了比较。


他们说,某些情况下,wav2letter++训练语音识别端到端神经网络速度是其他框架2倍还多,而且用1亿个参数的模型测试,使用从1到64个GPU,训练时间是线性变化的。


其实,wav2letter++还有个不带加号的前身,叫做wav2letter,用Lua语言写成。现在,新版占用了原版的GitHub仓库地址,而原来的wav2letter被放到了wav2letter-lua分支下。


想要复现wav2letter++也不难。因为它使用的机器学习库flashlight也同时开源了。这个机器学习库用现代的C++即时编译,CPU、GPU都可用,以求效率和规模的最大化。


最后,附上传送门~


GitHub地址:https://github.com/facebookresearch/wav2letter


论文:

wav2letter++: The Fastest Open-source Speech Recognition System

Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert

https://arxiv.org/pdf/1812.07625.pdf

【量子位 出品 | 公众号 QbitAI】

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:自动驾驶车辆获准进行载人载物测试

下一篇:腾讯公布人工智能领域最新进展,要打造“救命的AI”

用户评价
全部评价

热门资源

  • 国内人才报告:机...

    近日,BOSS 直聘职业科学实验室 &BOSS 直聘研究院...

  • AI使物联网更智能...

    看到微软对物联网和人工智能的结合感兴趣是一个明...

  • 推荐一批学习自然...

    这里推荐一批学习自然语言处理相关的书籍,当然,...

  • 安防智能化大势下...

    大部分传统安防设备不仅拍摄视野有限,而且无法事...

  • 20亿创业基金、10...

    近日,杭州举办了建设国家新一代人工智能创新发展...