能读取视频中人物唇语的人工智能

资源分类

能读取视频中人物唇语的人工智能

2019-12-10 |

81 |

原标题：能读取视频中人物唇语的人工智能

来源：人工智能媒体平台 [发表: TGS ] 链接：http://www.atyun.com/47683.html

2016年，谷歌和牛津大学的研究人员详细介绍了一个系统，该系统能够以46.8%的准确率，标注视频片段，实测超过了专业唇读器12.4%的准确率。但是，即使是最先进的系统也很难克服嘴唇动作的模糊性，基于此，它们的表现根本无法超越基于音频的语音识别。

为了开发更高效的语言识别系统，阿里巴巴、浙江大学和史蒂文斯理工学院的研究人员设计了一种被称为LIBS的方法，和其他类似的解决方案一样，LIBS可以帮助那些听力差的人跟踪缺少字幕的视频。

据估计，全世界有4.66亿人患有致残性耳聋，约占世界人口的5%。根据世界卫生组织的数据，到2050年，这一数字可能会增加到9亿多人。而换种思路想想，它也是外语不好的剧迷福音，在它的帮助下，外语不好的人完全可以独自在外网看喜欢的电影或电视剧。

LIBS从多尺度（包括序列级、上下文级和帧级）的说话人视频中提取有用的音频信息。然后，它通过识别这些数据与视频数据之间的对应关系（由于不同的采样率和有时出现在开始或结束处的空白，视频和音频序列具有不一致的长度）来将这些数据与视频数据对齐，并且利用滤波技术来细化提取的特征，进一步增加准确度。

LIBS的语音识别器和唇读器组件，主要依靠一种基于注意力的序列到序列的体系结构，这是一种映射序列输入的机器翻译方法。研究人员对模型进行了训练，内容主要来自BBC的45000个口语句子，以及CMLR——中国最大的普通话唇读语料库，其中有来自中国网络电视网站的10万多个自然句(包括3000多个汉字和2万个短语)。

在训练过程中，该小组注意到，由于一些句子很短，模型很难在LRS2数据集上获得“合理”的结果，原因是解码器很难从少于14个字符的句子中提取相关信息。另一方面，如果对最长为16个单词的句子进行预训练，那么解码器就会利用上下文级别的知识，提高LRS2数据集中句子结尾部分的质量。对于这两种出乎意料的情况，研究人员在一篇描述他们工作的论文中写道：“前者可能是因为，LIBS减少了对无关帧的关注。后者则很有可能是框架级的知识提取，进一步提高了视频框架特征的可辨别力，使其注意力更加集中。”

一THE END一

免责声明：本文来自互联网新闻客户端自媒体，不代表本网的观点和立场。

合作及投稿邮箱：E-mail:editor@tusaishared.com

上一篇：人工智能胶囊系统以最先进的精度区分物体

下一篇：NVIDIA构建了一个可以从2D图像创建3D模型的AI

用户评价

全部评价

热门资源

应用笔画宽度变换...

应用背景：是盲人辅助系统，城市环境中的机器导航...
GAN之根据文本描述...

一些比较好玩的任务也就应运而生，比如图像修复、...
端到端语音识别时...

从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...
人体姿态估计的过...

人体姿态估计是计算机视觉中一个很基础的问题。从...
谷歌发布TyDi QA语...

为了鼓励对多语言问答技术的研究，谷歌发布了 TyDi...

智能在线

400-630-6780
聆听.建议反馈

E-mail: support@tusaishared.com