资源技术动态DeepMind建模算法生成更复杂逼真的视频

DeepMind建模算法生成更复杂逼真的视频

2019-10-10 | |  162 |   0

原标题:视频界的FaceApp研究:DeepMind建模算法生成更复杂逼真的视频

来源:人工智能媒体平台  [ 由 Dolores 发表 ]      原文链接:http://www.atyun.com/42218.html


还记得前些天风靡网络的FaceApp吗,它是利用AI算法的自拍应用,把人们上传的照片中的人脸变年轻或者老化。

1570861333650372.jpg

显然这是针对移动设备的,而且需要静态照片,自然图像的生成模型通过对尺度的强大利用,已经向高保真度的样本发展。那么对于视频建模来说,如今的算法技术又有什么突破呢?


DeepMind在该领域的研究又进一步,最新论文“Efficient Video Generation on Complex Datasets”详细介绍了AI剪辑生成领域的最新进展,通过展示在复杂的Kinetics-600数据集上训练的大型生成式对抗网络能够生成比以往复杂得多的视频样本。


生成自然视频对于生成建模来说是一个明显的进一步挑战,但却受到数据复杂性和计算要求增加的困扰,过去许多关于视频生成的研究都围绕着相对简单的数据集或可获得强时间条件信息的任务。团队专注于视频合成和视频预测的任务,旨在将生成图像模型的强大结果扩展到视频领域。


1570861467596242.jpg

论文摘要


视频建模模型


研究人员提出模型双视频鉴频器GAN(DVD-GAN),通过利用其鉴频器的计算效率分解,扩展到更长的和更高分辨率的视频,得到显著的高保真度,256 x 256像素视频,最多48帧。


团队围绕尖端的AI架构构建了他们的系统,并引入了视频特定的调整,使其能够在Kinetics-600上进行训练,这是一个比常用语料库大一个数量级的自然视频数据集。


具体来说,研究人员利用扩大的生成对抗网络,这里用的是BigGANs,它们以其大批量和数百万个参数而著称。


0_4xz_f4x_5ds9N9UC.gif


一组4秒合成视频剪辑,在Kinetics-600的12个128×128帧上训练


DVD-GAN包含双鉴别器:空间鉴别器,通过随机采样全分辨率帧并单独处理它们来批评单个帧的内容和结构,以及提供学习信号以产生运动的时间鉴别器。一个单独的模块变换器,允许学习的信息在整个AI模型中传播。


生成视频

至于训练数据集(Kinetics-600),是根据最初为人类行为识别策划的50万个10秒高分辨率YouTube剪辑编制的,多样化且不受限制,因此这些数据消除了过度拟合的担忧。


该团队报告说,在经过谷歌加速的第三代Tensor处理单元训练12到96小时后,DVD-GAN成功地创建了具有物体组成、运动、甚至像溜冰场侧面这样复杂纹理的视频。


它在更高的分辨率下创建连贯的物体并不容易,其中运动由更多的像素组成,但研究人员指出,在UCF-101(13320个人类行为视频的较小数据集)上评估,DVD-GAN生产的样本最先进的成绩分数为32.97。


0_f-aROKpjnDUSEWM9.gif


DeepMind DVD-GAN


团队表示,“我们希望强化在大型复杂视频数据集上训练生成模型,例如Kinetics-600,我们设想通过DVD-GAN在此数据集上建立的强大基线,将被生成建模社区用作参考点。虽然在不受约束的环境中可以始终如一地生成逼真的视频还有很多工作要做,但我们相信DVD-GAN是朝这个方向迈出的一大步。”


论文: arxiv.org/pdf/1907.06571.pdf

Kinetics数据集:deepmind.com/research/open-source/open-source-datasets/kinetics

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:面部表情与情绪识别的关联存争议,AI的度量指标真的可信吗?

下一篇:人工智能个性化和逼真的漫画素描生成输入人脸图像创建漫画照片

用户评价
全部评价

热门资源

  • 应用笔画宽度变换...

    应用背景:是盲人辅助系统,城市环境中的机器导航...

  • GAN之根据文本描述...

    一些比较好玩的任务也就应运而生,比如图像修复、...

  • 端到端语音识别时...

    从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...

  • 人体姿态估计的过...

    人体姿态估计是计算机视觉中一个很基础的问题。从...

  • 谷歌发布TyDi QA语...

    为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi...