资源技术动态Google用更少标签生成图像,还提出一个用于训练评估GAN的库

Google用更少标签生成图像,还提出一个用于训练评估GAN的库

2019-11-15 | |  95 |   0

原标题:Google用更少标签生成图像,还提出一个用于训练评估GAN的库    

来源:今日头条        链接:https://www.toutiao.com/a6672141962381885959/


生成对抗网络(GAN)是属于一种强有力的深度生成模型。GAN 的主要思想是训练两个神经网络:一个是学习如何合成数据(如图像)的生成器( generator),另一个是学习如何区分真实数据与生成器合成数据的判别器(discriminator)。这类方法已经成功应用于高保真自然图像合成、提升模型图像压缩、数据增强等方面。

1573759044798874.gif

 

图注:在ImageNet上训练时,生成样本的演变过程。 生成网络是根据类别来生成的(如“灰猫头鹰”或“金毛猎犬”)。


对于自然图像合成,条件GAN(Conditional Generative Adversarial Nets)能实现最好的结果。与无条件 GAN 不同,条件 GAN 在训练期间会使用标签(如汽车、狗等)。 虽然这使得该任务更容易并且有明显的效果提升,但是这种方法需要大量的标记数据,因此在实践中很少可用。


在《使用更少标签生成高保真图像》(High-Fidelity Image Generation With Fewer Labels)这篇论文中,研究人员提出了一种新方法来减少条件GAN训练时所需的标记数据量。 结合 GAN 的最新进展,他们将高保真自然图像合成技术与最先进的技术相结合,使所需的标签数量减少了 10 倍。


论文传送门:https://arxiv.org/abs/1903.02271


基于这项研究,研究人员还在 Compare GAN 库中发布了一个重大更新,其中 Compare GAN 库是一个包含训练和评估 GAN 所有组件的工具库。


使用半监督和自监督进行提升


在条件 GAN 中,生成器和判别器通常都是以类标签为条件。在这项工作中,我们提出用推断的标签去替代手工注释的标签。 为了使大型数据集中大多数未标记数据被推断出来的标签质量更高,我们采取两步法:


首先,我们仅使用数据集未标记的部分来学习特征表示。为了学习特征表示,我们将最近的方法都用在了自监督上,也就是当深度卷积神经网络的任务是预测旋转角度时,我们会对未标记图像的进行随机旋转。背后的想法是模型需要能够识别主要的目标及形状才能在此任务中取得成功。

image.png

 

图注:这张未标记图像被随机旋转,而网络的任务则是预测旋转角度。成功的模型需要捕获具有语义的图像特征,而这样的特征也可以将其用于其他视觉任务。


然后,我们将训练好的网络一个中间层的激活模式视为输入的新特征表示,并使用原始数据集的标记部分去训练一个分类器来识别该输入的标签。由于网络经过预训练可以从数据(在旋转预测任务上)中提取出具有语义信息的特征,因此训练分类器比从头开始训练整个网络会更快。 最后,我们使用此分类来器标记没有标签的数据。


为了进一步提高模型质量和训练的稳定性,我们会采用之前介绍的辅助损失以加强判别器网络学习有意义的特征表示,这些特征表示在训练期间不会被遗忘。这两项改进与大规模训练相结合,为以 FID 为度量方式的 ImageNet 综合性任务带来了最先进的条件 GAN。


论文传送门:https://arxiv.org/abs/1811.11212

image.png

 

图注:给定一个潜在向量,生成器网络就能产生一张图像。 在每行中,最左侧和最右侧图像编码之间的线性插值导致了图像空间中的语义插值。


Compare GAN:一个用于训练和评估GAN的库


对 GAN 的前沿研究在很大程度上依赖于经过精心设计和良好测试的代码库,因为即使复现其他人的结果和技术也需要花费巨大努力。为了促进开放科学并让研究者能从最近的新方法中获益,我们正在发布 Compare GAN 库的重大更新。该库包括现有 GAN 中常用的损失函数,正则化和规范化模式,神经架构和量化指标等等,现在支持:


在 GPU 和 TPU 上训练。

通过 Gin 进行轻量级配置。

通过 TensorFlow 数据集库提供大量数据集。


结论:

鉴于标记和未标记数据源之间的差距越来越大,能够仅从部分标记的数据中学习变得越来越重要。我们已经证明,自监督和半监督之间简单而有力的结合可以帮助缩小 GAN 在数据源上的差距。我们认为,自监督是一个强有力的想法,而且应该可以用于其他生成模型的任务。

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:人脸识别惹争议,未来该何去何从?

下一篇:Facebook 开源图像处理库 Spectrum,优化移动端图像生成

用户评价
全部评价

热门资源

  • 应用笔画宽度变换...

    应用背景:是盲人辅助系统,城市环境中的机器导航...

  • GAN之根据文本描述...

    一些比较好玩的任务也就应运而生,比如图像修复、...

  • 端到端语音识别时...

    从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...

  • 人体姿态估计的过...

    人体姿态估计是计算机视觉中一个很基础的问题。从...

  • 谷歌发布TyDi QA语...

    为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi...