资源经验分享【CV中的特征金字塔】一,工程价值极大的YOLOv3-ASFF

【CV中的特征金字塔】一,工程价值极大的YOLOv3-ASFF

2020-03-03 | |  52 |   0

原标题: 【CV中的特征金字塔】一,工程价值极大的YOLOv3-ASFF

来源:AI 研习社     链接:https://www.yanxishe.com/columnDetail/18151


image.png

1. 前言

今天为大家介绍一下 2019 年的一篇论文 《Learning Spatial Fusion for Single-Shot Object Detection》,这篇论文主要是因为其提出的 自适应空间特征融合 (ASFF)被大家所熟知。金字塔特征表示法(FPN)是解决目标检测尺度变化挑战的常用方法。但是,对于基于 FPN 的单级检测器来说,不同特征尺度之间的不一致是其主要限制。因此这篇论文提出了一种新的数据驱动的金字塔特征融合方式,称之为自适应空间特征融合(ASFF)。它学习了在空间上过滤冲突信息以抑制梯度反传的时候不一致的方法,从而改善了特征的比例不变性,并且推理开销降低。借助 ASFF 策略和可靠的 YOLOV3 BaseLine,在 COCO 数据集上实现了 45FPS/42.4% AP 以及 29FPS/43.9% AP。论文原文以及代码链接见附录。

2. 一个更强的 YOLOV3 基准

这篇文章之所以取得这么好的效果不仅仅是因为它提出的 ASFF 这种特征自适应融合方式,论文在 YOLOV3 的基础上集百家之长,构建了一个非常强的 YOLOV3 BaseLine,这个 BaseLine 在 MSCOCO 上的 mAP 就达到了 38.8%。相比于原始的 YOLOV3 的 33%,提升了接近 6 个点。。论文使用的技巧包括:

  • Guided Anchoring

  • Bag of Tricks

  • Additional IoU Loss

image.png

3. 自适应特征融合(ASFF)

为了更加充分的利用高层特征的语义信息和底层特征的细粒度特征,很多网络都会采用 FPN 的方式输出多层特征,但是无论是类似于 YOLOv3 还是 RetinaNet,它们都多用 concatenation 或者 element-wise 这种直接衔接或者相加的方式,论文认为这样并不能充分的利用不同尺度的特征,所以提出了Adaptively Spatial Feature Fusion(自适应特征融合方式)。以 ASFF-3 为例,其结构可以表示为 Figure2。

image.png

image.png

image.png

4. ASFF 的可解释性

论文通过梯度和反向传播来解释为什么 ASFF 会有效。论文以 YOLOv3 为例,加入 FPN 后通过链式法则我们可以知道在反向传播的时候梯度计算如公式(3)所示:

image.png

image.png

5. 实验结果

下面的 Table3 展示了 ASFF 相比于 concat 和 sum 的方式的结果,可以看到加入了 ASFF 在 BaseLine 的基础上提升了 2 个多个 mAP。

image.png

接着作者又对 ASFF 做了可视化分析,如 Figure3 所示。

01.png

可视化的结果进一步解释了 ASFF 的有效性。比如对于斑马的检测,可以看到斑马实际上是在 level1 这个特征图上被检测到的(响应越大,heatmap 越红),并且观察 level1 这一层的αβγ的权重可以发现,对于图中斑马这种大目标更容易被高层的特征捕捉到,因为对于大物体我们需要更大的感受野和高级语义特征。而对于下面的羊群的检测来讲,可以看到羊更多的是被 level2 和 level3 检测到,这也说明了对于小物体,我们更需要底层特征中的细粒度特征来辨别。

6. 结论

这篇论文将 YOLOv3 的结果做得非常好,是具有很大的工程实践意义的,论文具体是具体如何做出的 Stronger YOLOv3 BaseLine,我相信有不少小伙伴和我一样感兴趣。这个可以去源码一探究竟了。这是近几个月最喜欢的一篇论文了,不仅仅是因为它的精度非常强,而且从数学角度来简洁的说明这个方法的有效性也是棒的。

7. 参考

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:今日 Paper | 小样本学习;机器学习;单幅图像去雾 ;零样本目标检测等

下一篇:机器学习验证集为什么不再有新意?

用户评价
全部评价

热门资源

  • Python 爬虫(二)...

    所谓爬虫就是模拟客户端发送网络请求,获取网络响...

  • TensorFlow从1到2...

    原文第四篇中,我们介绍了官方的入门案例MNIST,功...

  • TensorFlow从1到2...

    “回归”这个词,既是Regression算法的名称,也代表...

  • 机器学习中的熵、...

    熵 (entropy) 这一词最初来源于热力学。1948年,克...

  • TensorFlow2.0(10...

    前面的博客中我们说过,在加载数据和预处理数据时...