资源技术动态利用生成对抗网络GAN实现图像超分辨率

利用生成对抗网络GAN实现图像超分辨率

2019-11-15 | |  157 |   0

原标题:利用生成对抗网络GAN实现图像超分辨率      

来源:今日头条        链接:https://www.toutiao.com/a6746108589783384590/


如果我问你,这张图片中有多少只企鹅?你可能并不能给出精确的答案!

我们把图像调大,现在怎么样?

image.png


把它弄大了,但还是模糊的……

更进一步的,现在呢?需要费点眼力去数企鹅。

image.png


这张图像是图像超分辨率的完美典范!


图像超分辨率可以从低分辨率图片中创建外观更好、分辨率更高的图像。任何将图像放入ppt演示文稿中的人都知道,缩小图像实际上会使它看起来更糟。这是因为双三次插值法用于放大图像:该技术采用像素的平均值来填充在放大图像时产生的间隙。

image.png

                                         基于插值的大小调整


这样做的问题是,没有新的数据被创建-这意味着图像分辨率并没有变好,而只是变大了。


无论只是创建简报、分析乳房X光片,还是进行远距离面部识别,超分辨率都非常重要。


那么我们如何做超分辨率?好吧,我们转向人工智能中的深度学习!我们已经看到了实现图像超分辨率的卷积神经网络。但是,这仍然存在一些问题:图像看上去并没有我们想要的那么清晰明了,为了解决这个问题,超分辨率生成对抗网络SRGAN就应运而生了。

image.png

                                                                   不同SR方法的比较


放大以注意到SRGAN有多清晰!

在进入超分辨率方面之前,咱们先简单介绍一下GAN。


GAN(生成对抗网络)


"考虑到输入数据集,我们可以生成看起来像数据集中的新数据吗?"


想一想伪造者在博物馆和策展人面前切换真实绘画和伪造品的情况,其工作是将真实艺术品与伪造品区分开。当两者都刚刚开始时,造假者将犯下大量错误,策展人也将很难区分假货与真实商品。


随着时间的流逝,造假者可以尝试不同的技术,并且在制造假货方面会变得更好,而策展人还可以找到策略来帮助他区分假货。他们彼此都在进步。


造假者的目的是创建看起来真实的艺术品,策展人的目的是总是能够发现假画。


这两个角色相互竞争,代表GAN中的两个网络。作为生成网络的伪造者创建一个新图像,作为区分网络的策展人评估来自生成器的图像是否看起来真实。

image.png

                                                      训练生成手写数字的传统GAN的架构


生成器会获取随机像素数据(噪声),该数据将变成伪输出,在超分辨率的情况下,它将随机噪声转换为更高分辨率的图像。


鉴别器在训练集和生成器的图像上进行训练,学会区分它们。


那么为什么使用GAN更好呢?


还有许多其他的超分辨率方法,例如SRResNet和SRCNN,但是这些方法都存在一个问题:即使网络看起来运行良好,视觉质量也很差。


当我们使用传统的损失函数来衡量鉴别器的准确性时,它衡量的是数学上的接近度(欧几里得距离),而不是视觉上生成的图像与真实图像的接近程度,从而得出区域内颜色的平滑平均值,如下面的SRResNet图像所示。

image.png image.png

SRGAN(左),SRResNet(右)—注意SRResNet图像中的平滑度和细节。


为了解决这个问题,创建了一个感知损失函数:测量视觉清晰度。该损失是两个不同的损失之和→ 内容损失和对抗性损失。


对抗损失


使用GAN的巨大好处之一是,可以利用对抗损失来激励输出看起来自然。发生这种情况是由于GAN的基本性质:查找看起来不属于真实的数据。


对抗性损失是鉴别器网络评估生成器运行状况的一部分。如果判别器认为图像使生成器看起来合法,则与认为图像完全伪造相比,损失会更低。


内容损失


内容损失通过将生成的图像和原始图像通过CNN特征图并计算输出的损失来比较图像中的精细细节。


让我们分解一下。

当我们训练卷积神经网络时,它的各层执行特征提取,这是一种奇特的说法,即它在图像中寻找图案和形状。随着我们越来越深入网络,我们发现功能越来越复杂。

image.png

                                                                          可视化特征图


好的,很酷-让我们分析一下这些功能图中的实际情况。在Conv1层中,保留了来自图像的大量原始信息。这是因为CNN中的初始(转换)层通常充当边缘检测器。


稍后在网络中,对更高级别的信息进行了编码,并且在Conv 2-4中,图像开始变得越来越抽象。尽管看起来更深的层比最初的层对信息的编码要少(因为它们看起来很模糊),但实际上它们只是在改变它们包含的信息的类型:从几何信息到语义信息。


为了更清楚地了解这一点:这是一些可视化图像通过通过图像的实际,更具体地讲,使用滤波器激活最多的图像的。


7层

1573754586535940.png 1573754607453610.png 1573754627676280.png


14层

1573754693437790.png 1573754703880748.png 1573754720346661.png

 

20层

1573754775942963.png 1573754788586632.png 1573754802890665.png

 

30层

1573754855814567.png 1573754866682420.png 1573754881253009.png

 

40层

1573754930916529.png 1573754943814843.png 1573754955216093.png

 

这些图片色彩斑斓,不仅令人着迷,而且还可以直观地了解我们深入网络时正在寻找哪些滤波器。在图像的最后一行中,我们可以轻松地将拱门鸟类和链条识别为每个滤波器正在寻找的对象。


让内容恢复损失,我们将通过生成器和原始图像重建的图像通过特征图,并比较两个图像中的细微纹理差异,以看起来平滑的纹理对图像进行惩罚。


损失的概念也用于神经样式转换中。


这是感知损失函数的基本思想。


随着这项技术的进步,并且随着时间的推移不断改进,我们可以从如下所示的出色结果中受益:

image.png


对此:

 

这项技术的研究进展可能导致超长距离航空/卫星成像,医学图像增强,数字全息,和吨多真正的高影响力的应用-更不用提,使企鹅看起来清晰和明确的。


关键要点:

  • GAN具有两个相互竞争的神经网络,以生成看起来真实的全新图像 。

  • SRGAN图像比SRCNN图像更好看,因为它们包含更精细的细节:使用感知损失函数的原因。

  • 感知损失是通过将内容损失(纹理相似度)与对抗损失(此图像的合法性)相加得出的。

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:掌纹识别技术的原理与应用 刷手的时代来啦

下一篇:人脸识别惹争议,未来该何去何从?

用户评价
全部评价

热门资源

  • 应用笔画宽度变换...

    应用背景:是盲人辅助系统,城市环境中的机器导航...

  • GAN之根据文本描述...

    一些比较好玩的任务也就应运而生,比如图像修复、...

  • 端到端语音识别时...

    从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...

  • 人体姿态估计的过...

    人体姿态估计是计算机视觉中一个很基础的问题。从...

  • 谷歌发布TyDi QA语...

    为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi...