资源行业动态谷歌开源语音引擎:分享9大语音功能,为长篇对话提供字幕

谷歌开源语音引擎:分享9大语音功能,为长篇对话提供字幕

2019-11-06 | |  63 |   0

原标题:谷歌开源语音引擎:分享9大语音功能,为长篇对话提供字幕

来源:人工智能实验室  [ 智东西(公众号:zhidxcom)编 | 韦世玮 ]  


导语:在各类语音转录工具百花齐放的当下,谷歌开源的Live Transcribe将给人们带来更便捷和新颖的语音体验。


智东西8月19日消息,近日,谷歌开源了Android语音识别转录工具Live Transcribe的语音引擎,源代码现在可以在GitHub上获得。

image.png


谷歌希望通过这一方式,能够让任何开发者为长篇对话提供字幕,进一步为安卓语音识别转录工具的实时转录功能提供动力。


一、两种转录方式,覆盖所有安卓设备


今年二月,谷歌发布了Live Transcribe,该工具通过使用机器学习算法,能将音频转换为实时字幕。


与谷歌即将为安卓推出的Live Caption(实时字幕)功能不同,Live Transcribe是一种全屏体验,它依赖于谷歌云Speech API(语音应用编程接口),能让用户通过智能手机的麦克风或外接麦克风使用。


Live Transcribe实质上是一种交流工具,一方面,它可以用70多种语言和方言来描述实时口语单词。另一方面,用户也可以通过输入文字来进行转录。


此外,Live Caption和Live Transcribe还有一个主要的区别。Live Transcribe可以在18亿台安卓设备上使用,而Live Caption只适用于部分Android Q设备。

image.png



二、如何解决云上工作的潜在弊端?


目前,谷歌的Cloud Speech API并不支持发送无限长的音频流。此外,它依赖云来使用的特性,也意味着它在网络连接、数据成本和延迟方面都有潜在问题。


因此,语音引擎会在请求超时之前关闭并重启,还会在长时间�木材诩渲仄艋峄埃约霸诩觳獾接镆粼萃J惫乇栈峄啊� 在会话期间,语音引擎还会在本地缓冲音频,当网络重新连接时便可发送。


基于这些设计,谷歌避免了工具转录时会出现截断的句子或单词,并减少了对话中丢失的文本量。 为了降低带宽需求和成本,谷歌还评估了不同的音频编解码器,包括FLAC(无损音频编解码器)、AMR-WB(新型宽带语音编解码器)和Opus(有损音频编解码器)。


其中,FLAC可以保持转录的准确性,但不能保存太多的数据,并且具有明显的延迟;AMR-WB能够节省大量数据,但它在嘈杂环境中的转录不够精确;Opus允许使用比大多数音乐流服务还要低很多倍的数据速率,还能同时保留音频信号的重要细节。


此外,谷歌还可以在长时间的静音期间,通过语音检测来关闭网络连接。总体而言,谷歌能够在不影响转录准确性的情况下,将数据使用量减少10倍。


为了进一步降低延迟,Live Transcribe使用了自定义Opus编码器,能提高比特率,使延迟在视觉上无法区分发送但未压缩的音频。

image.png



三、Live Transcribe的9项语音引擎功能


谷歌列出了Live Transcribe的9项功能文档,但不包括说话人识别:


1、无限流媒体;

2、支持70多种语言;

3、当用户在网络和Wi-Fi之间切换时,可简化网络丢失。并且文字只会延迟,不会丢失;

4、对扩展网络丢失具有鲁棒性,即使网络中断数小时,仍会重新连接。但没有连接就无法进行语音识别;

5、可以轻松启用和配置Opus、AMR-WB和FLAC编码;

6、包含文本格式库,可用于可视化ASR(自动语音识别)置信度,发言人ID等;

7、可扩展到离线模式;

8、内置支持语音检测器,可在延长静音期间内用于停止ASR,以节省资金和数据;

9、内置支持扬声器识别,可用于根据扬声器编号标记或着色文本。


该文档还指出,这些库与生产应用程序Live Transcribe中运行的库几乎相同。谷歌已经对它们进行了广泛的现场测试和单元测试,但测试本身并不是开源的。


谷歌将为开发人员们提供APK(安卓安装包),让他们能够在不构建任何代码的情况下试用该库。

image.png



结语:为人们提供更高效和便利的沟通方式


谷歌表示,Live Transcribe是他们与加拉德特大学合作开发的一款应用,专为失聪和听障用户打造,而加拉德特大学是美国第一所专为失聪及听障人士设立的大学。


这款应用的开源对开发人员们来说,也许能进一步为失聪和听障患者的生活带来更大的便利。同时对普通人来说,也能帮助人们更快地适应各类新的语言环境,提供更高效的沟通方式。

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:思必驰智能语音识别成熟 适用智能家居儿童早教项目

下一篇:用自己的风格教AI说话,语言生成模型可以这样学

用户评价
全部评价

热门资源

  • 国内人才报告:机...

    近日,BOSS 直聘职业科学实验室 &BOSS 直聘研究院...

  • AI使物联网更智能...

    看到微软对物联网和人工智能的结合感兴趣是一个明...

  • 推荐一批学习自然...

    这里推荐一批学习自然语言处理相关的书籍,当然,...

  • 安防智能化大势下...

    大部分传统安防设备不仅拍摄视野有限,而且无法事...

  • 20亿创业基金、10...

    近日,杭州举办了建设国家新一代人工智能创新发展...