演讲实录 |王井东：物体上下文引导的表征学习在语义分割中的应用

2020-02-18 |

63 |

原标题：演讲实录 |王井东：物体上下文引导的表征学习在语义分割中的应用

来源：今日头条链接：https://www.toutiao.com/a6794227877328978439

一：报告导读

本文报告主要介绍了在图像分割问题中如何有效利用物体的上下文信息，回顾了目前主要的研究方法，同时分享了在深度神经网络中利用物体区域的表征来增强所属像素的表征（OCR）的研究工作以及在主流数据集上的优异性能。

二、专家介绍

王井东，微软亚洲研究院首席研究员，国际模式识别学会会士。担任或曾担任过CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM 等人工智能会议的领域主席或高级程序委员会委员。现为IEEE 汇刊 IEEE TPAMI, IEEE TCSVT和IEEE TMM的编委会成员曾获得ACM MM 2015最佳论文提名。其研究成果10多次转化到微软的关键产品和服务中。主要从事计算机视觉、深度学习及多媒体等领域的研究，包括神经网络结构的设计、行人姿势估计、图像分割、目标检测以及多媒体搜索等。

三、报告内容

图像分割是计算机视觉里面一个非常重要的问题。研究者们关注比较多的是图象分类的问题，而图像分割需要对每个象素设定标签。

如果想利用深度学习的方法，最简单的方法就是把每个象素拿出来，同其周围的象素一起做一个块（patch）作为一个单独的图象来进行分类，这样也可以实现图象分割。这样的话有什么问题呢？计算量太大，每个像素都要算一遍，要算很多次。2015年左右，UC Berkeley的研究者提出了全卷积网络(FCN)的这么一个工作，这个方法当时取得了非常领先的结果，比以往的方法都好，但是有两个重要的因素都没有考虑到，第一个是分辨率的问题，因为它从分类的网络得到小的分辨率，通过恢复的方法保持一定的分辨率，这些例子我们前面也都看到了。

另外一个非常重要的问题，FCN里面并没有解决好，即物体上下文或者场景的信息。为什么有这样的问题？因为我们单独看一个象素，很难知道这个象素是属于某一个物体的，因为象素给我们的信息是RGB的信息，如果不给予足够多的上下文信息是很难判断的，这是第一点。第二点，上下文会有什么样的好处呢？比如说我们在马路上检测到一些象素，分类成车或者船的分数，因为知道周围是马路，十有八九这个象素应该分类成车，这也是使用上下文信息进行推理非常重要的原因。

我们看一下在深度学习时代大家怎么去做这个上下文？基本上做的方法都是非常直接的。之前商汤的一个工作称之为PSPNet，通过给每个象素周围建立多层的或者多尺度的表征，大家可以看到中间有四个分支，这个方块大小是不一样的，实际上是对应不同的尺度，我们称之为多尺度的策略或者金字塔的策略，在传统计算机视觉方面大家应用得很多，当时这个方法取得了非常大的突破，同时谷歌也有一个工作，它用了类似于空洞卷积的方式来实现的。

但是仔细研究这个方法，比如说我们这个红色的点是我们关注的点，周围绿色的几个点是通过空洞卷积采样出来，或者在PSP里面金字塔的方法采样出来的，我们可以看到，有一部分点跟红色点是不属于车的，还有一个是属于车的，这两部分像素混合在一起，其实我们并没有区分。

那应该怎么办？分割任务实际上是说我们要给每个象素一个标签，实际上我们并不是给象素标签，而是这个象素应该落在某个标签对应的物体上。我们要去找这个物体，而不是这个象素本身属于谁，我们要通过周围物体的象素表征来帮助。如果说利用我们刚才提的，把这个像素对应的物体的表征拿过来做分割的话可以达到88.5%，说明我们有很大的空间，这个空间非常大。

那么究竟怎么做？这是个鸡生蛋和蛋生鸡的问题，你想利用这个象素所在的物体，可是我们分割任务并没有告诉这样的信息，我们的做法就是如果事先没有准确的物体信息，可以通过估计，也可以是中间的这个表征去估计出这么一个物体，然后把这个物体的表征拿出来增强当前象素的表征。

具体来看这个策略是怎么做，图片里面我们需要增强红色小方块的表征，它的初始表征我们给出来了，同时我们有个初步的分割，还有中间的特征，我们把初步分割的每个区域的特征提出来，把左边象素的特征经过一些变换，右边每个区域的特征也经过一些变换，简单算一下他们的相似度，直观来讲，在当前的估计下，最上面的一行小方格是每个颜色代表属于某个区域的可能性，我们根据这个可能性把每个区域的表征加权平均起来，会得到当前象素增强的特征。

这个方法出发点非常明确，看上去非常有道理，在标准的数据里面都做了测试，最终我们的结构可以达到82.3%，这是目前我们观察的最好的结果，而且是单模型最好的结果。

还有ADE和MIT，这是非常有挑战性的，目前我们也是做得最好的结果。还有COCO-Stuff数据集，在这个任务里面通常大家互相把长颈的分割跟物体的分割这两个问题分开去做，为什么要分开去做？因为这两个分开就会带来更大的难度，最后一列这个数字也可以看得出来。在这个更加复杂的任务里面，跟最好的方法相比，最好的方法是DANet是39.7%。我们把高分辨率的网络结构HRNet和这个OCR组合起来，在榜单上排名第一的，这样一个榜单还是非常困难的，在过去一年没有什么变动，大概是去年的这么一个结果。

一THE END一

免责声明：本文来自互联网新闻客户端自媒体，不代表本网的观点和立场。

合作及投稿邮箱：E-mail:editor@tusaishared.com

上一篇：基于Python的face_recognition库实现人脸识别

下一篇：OpenCV-Python中用于角点检测的FAST算法

用户评价

全部评价

热门资源

应用笔画宽度变换...

应用背景：是盲人辅助系统，城市环境中的机器导航...
人体姿态估计的过...

人体姿态估计是计算机视觉中一个很基础的问题。从...
GAN之根据文本描述...

一些比较好玩的任务也就应运而生，比如图像修复、...
端到端语音识别时...

从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...
谷歌发布TyDi QA语...

为了鼓励对多语言问答技术的研究，谷歌发布了 TyDi...

智能在线

400-630-6780
聆听.建议反馈

E-mail: support@tusaishared.com