资源技术动态Hypercolumn(实例分割)

Hypercolumn(实例分割)

2019-10-15 | |  233 |   0

原标题:https://www.leiphone.com/news/201910/lmQrxjj65N4ZWT0n.html

来源:AI研习社        链接https://www.yanxishe.com/TextTranslation/1590


我们将在这篇文章中讨论超列(Hypercolumn)。“超列”这个词是从神经系统科学当中借鉴来的,用来描述一组对于多角度的边缘以及以柱状结构排列的多种频率敏感的V1神经元。论文通过借鉴超列的思想,提高了预测准确率,并在2015年的CVPR上发表,被引用次数超过800。这篇论文发表之时,它的第一作者Dr. Bharath Hariharan正在加利福尼亚大学伯克利分校攻读博士学位。后来当实例分割的概念在2017年的TPAMI上出现的时候,Dr. Hariharan已经成为Facebook的AI研究部(FAIR)的博士后研究员。之后,另一篇著名的论文特征金字塔网络(FPN)在2017年的CVPR上发表。目前他已经成为了康奈尔大学的助理研究员,专注于三维空间的计算机视觉研究 


大纲

1. 超列的概念

2. 使用超列进行像素分类

3. 高效地实现超列

4. 快速实现超列

5. 结论


 超列的概念


1.1超列的表示

1553497658715852.png

  • 卷积神经网络(CNN)通常使用最后一层的输出作为特征表示。然而,最后一层的输出在空间上太过粗糙,以至于不能够精确定位。

  • 如上图所示,在一个像素上的超列是那个像素的网络所有节点的激活值的串联成的向量。

  • 通过这种方式,空间上的定位信息可以从靠前的网络层中获得,并且会有更好的预测准确率。

1.2超列问题的提出

  • 首先,假设我们能够通过物体检测系统使用非最大抑制的方法对物体进行检测。

  • 其次,检测出的物体边界框被稍微扩大并且在这个扩大的边界框中预测出一个热图。

  • 对于分割,热图揭示了某一特定位置在特定区域内的概率。检测后物体被分割,我们称这种方法就是题目中说的实例分割方法。

  • 而且对于部分标记以及关键点预测同样管用,每个部分或关键点可以预测出不同的热图,每个热图都表示了一个位置属于那个部分或关键点的概率。

  • 每次都能预测出50x50的热图,然后被调整到适应扩大了的边界框的大小并被画在图片上。

2.使用超列进行像素分类

  • 某一位置上的超列是一个长向量,连接了网络中部分或者全部的特征映射图的特征。

  • 举例来说,使用AlexNet网络架构中的池化层2(256通道),卷积层4(384通道),以及全连接层7(384通道),将会产生4736维的向量。

  • 位置很重要,例如:对于一个检测到的人,头部应该在检测框的顶部。因此,对每个50X50大小的位置训练不同的分类器的最简单的方法,就是在每个位置上使用1x1的卷积层或者全连接层。

  • 但是,仍然存在三个问题:1.每个点能够获取的数据十分有限,容易导致过拟合的发生。2.训练如此多的分类器的计算代价是昂贵的。3.相邻的像素是十分相似的。

3.高效的超列


1553497661447330.png


  • 一个解决方法是使用卷积层进行上采样。

  • 用nxn的卷积层代替1x1的卷积层。这样的话考察的就不仅是某一个像素的神经元,而且涵盖了它的临近节点神经元。

  • 有一些示意图展示了超列的思想是如何提高超列的实现效率的(如果你感兴趣,可以去详细阅读这篇论文)


1553497658650654.png

  • 最后,上图展示的,就是超列分类器。

  • 在使用双线性插值法进行卷积和上采样之后,来自不同层的特征映射被叠加在一起,然后通过sigmoid函数进行计算。

  • 然后热图被结合在一起,给出最终的输出。

  • 看起来就像FCN.



4. Fast Hypercolumn (in 2017 TPAMI)

1553497659348855.png 

 利用Fast Hypercolumn对SPP Idea进行预测


  • 卷积层只在整幅图像上运行一次,因为卷积层的特征可以在边界框中共享。

  • 对于每一个检测框,SPP层使用空间金字塔计算固定长度的向量,然后传入到全连接层(红色)(SPP层在SPPNet中被提出)。

  • 速度得到提高的原因是卷积层的特征被所有边界框(橘色)所共享。

  • 全连接层的特征仍然独立计算每个边界框。


5. 结果


5.1检测后分割

1553497659189801.png 

 Ablation研究在VOC2012验证集上的结果

  • SSD[22]:基准精度47.7%map.

  • Hypercolumn (Hyp):采用10*10大小的格网,另外,根据定位结果在原始候选框中与否,相应添加1/0.

  • 利用边界回归框优化边界框:51.9%map.

  • 微调:52.8%map,比SDS精度高.

  • 去掉一两个上采用层,map精度也相应下降.

  • 采用不同大小的格网来离散检测框:使用1*1格网已经能够表现超过SDS,使用5*5格网能够取得采用10*10格网的效果.


1553497660662622.png 

热力图,最上行:基准,最下行:Hypercolumn

1553497659891427.png  

VOC2012验证集精度

  • T-Net: AlexNet, 44.0% mAP.

  • O-Net: VGGNet, 52.6% mAP.

  • O-Net, Hyp: 56.5% mAP.

  • O-Net, Hyp+Rescore: 60.0% mAP. (围绕 NMS 阈值和区域重叠重新评分起到重要作用)

5.2. 关键点预测

只有 “Person” 一类. 

1553497660883824.png  

VOC2012验证集


1553497660667530.png

热力图,最上行:只有FC7的基准,最下行:Hypercolumn

具有微调的超列可以获得最佳结果。  


发起:王立鱼 校对:唐里 审核:鸢尾

参与翻译(2人):天字一号、贴地飞行

英文原文:Review: Hypercolumn (Instance Segmentation)

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:Res2Net深度多尺度目标检测架构

下一篇:一个简单的数学模型向你揭示人类视觉的秘密

用户评价
全部评价

热门资源

  • 应用笔画宽度变换...

    应用背景:是盲人辅助系统,城市环境中的机器导航...

  • GAN之根据文本描述...

    一些比较好玩的任务也就应运而生,比如图像修复、...

  • 端到端语音识别时...

    从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...

  • 人体姿态估计的过...

    人体姿态估计是计算机视觉中一个很基础的问题。从...

  • 谷歌发布TyDi QA语...

    为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi...