原标题:新的IBM技术将AI语音识别培训时间从一周缩短到11小时 来源:venturebeat.com [ 发表者: KYLE WIGGERS ]
原文链接:https://venturebeat.com/2019/04/10/new-ibm-technique-cuts-ai-speech-recognition-training-time-from-a-week-to-11-hours/
可靠,强大且可通用的语音识别是机器学习中的持续挑战。传统上,培训自然语言理解模型需要包含数千小时语音和数百万(甚至数十亿)文本单词的语料库,更不用说足够强大的硬件以在合理的时间范围内处理它们。
为了减轻计算负担,IBM在一篇新发表的论文(“ 用于自动语音识别的分布式深度学习策略 ”)中提出了一种分布式处理架构,该架构可以实现15倍的训练加速,并且在流行的开源基准测试中没有精度损失(总机)。该论文的作者表示,该系统部署在包含多个显卡的系统上,可以将培训时间总计从几周减少到几天。
这项工作计划于下个月在IEEE国际声学,语音和信号处理会议(ICASSP)会议上公布。
作为贡献研究人员张伟,崔晓东和Brian Kingsbury在即将发布的博客文章中解释,培训像Apple的Siri,Google智能助理和亚马逊的Alexa那样的自动语音识别(ASR)系统需要复杂的编码系统将语音转换为理解的功能通过深度学习系统和解码系统将输出转换为人类可读的文本。模型往往偏大,这使得大规模的培训更加困难。
团队的并行化解决方案需要提高批量大小,或者可以一次处理的样本数量,而不是不加选择地处理 - 这会对准确性产生负面影响。相反,他们使用“原则方法”将批量大小增加到2,560,同时应用称为异步分散并行随机梯度下降(ADPSGD)的分布式深度学习技术。
正如研究人员解释的那样,大多数深度学习模型采用同步优化方法,这些方法受到慢速系统的不成比例的影响,或基于参数 - 服务器(PS)的异步方法,这往往会导致模型不太准确。相比之下,IBM去年在论文中首次详述的ADPSGD是异步和分散的,保证了模型准确性的基线水平,并为某些类型的优化问题提供了加速。
在测试中,该论文的作者称,ADPSGD将ASR作业运行时间从单个V100 GPU上的一周缩短到32-GPU系统上的11.5小时。它们留给未来的工作算法,可以处理更大的批量大小和针对更强大的硬件进行优化的系统。
“在半天内完成培训工作是可取的,因为它使研究人员能够快速迭代开发新算法,”Zhang,Cui和Kingsbury写道。“这也允许开发人员快速周转时间,使现有模型适应他们的应用,特别是在需要大量语音以实现稳健性和可用性所需的高精度时的定制用例。”
一THE END一
免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。
合作及投稿邮箱:E-mail:editor@tusaishared.com