资源技术动态【目标检测Anchor-Free】CVPR 2019 Object as Points(CenterNet)

【目标检测Anchor-Free】CVPR 2019 Object as Points(CenterNet)

2020-02-11 | |  91 |   0

原标题: 【目标检测Anchor-Free】CVPR 2019 Object as Points(CenterNet)

来源:AI 研习社       链接:https://www.yanxishe.com/columnDetail/17738


前天发了一个推文【目标检测Anchor-Free】CVPR 2019 CenterNet,讲解的是 CenterNet: Keypoint Triplets for Object Detection 这篇论文,今天要讲的这篇论文全名是 Object as Points。这篇论文提出的网络也被叫作 CenterNet,和前面介绍的 CenterNet 重名了,注意加以区别。论文原文见附录。

摘要:目标检测往往是在图像上将目标以矩形框的形式标出。大多数先进的目标检测算法都是基于 Anchor 框来穷举可能出现目标的位置,然后针对该位置进行目标的分类和回归,这种做法浪费时间,低效,并且需要额外的后处理(NMS)。这篇论文使用不同的方法,构建模型时将目标作为一个点,即目标 BBox 的中心点。并且检测器使用关键点估计来找到中心点,并回归其它的目标属性,例如尺寸,3D 位置,方向,甚至姿态。这个模型被论文叫做 CenterNet,这个模型是端到端可微的,更简单,更快速,更准确。下面是其性能:1:Resnet-18 with up-convolutional layers : 28.1% coco and 142 FPS 。2:DLA-34 : 37.4% COCOAP and 52 FPS 。3:Hourglass-104 : 45.1% COCOAP and 1.4 FPS。

下面的 Figure2 展示了使用 CenterNet 目标检测器检测目标的一个可视化效果。

1581401265180962.png

贡献

CenterNet 的创新点如下:

  • 用 heatmap 预测的目标中心点代替 Anchor 机制来预测目标,使用更大分辨率的输出特征图(相对于原图缩放了 4 倍),因此无需用到多层特征,实现了真正的 Anchor-Free。CenterNet 和 Anchor-Based 检测器的区别如 Figure3 所示。

02.png

  • 网络可拓展性非常强,论文中介绍了实现 3D 目标检测和人体姿态估计任务。具体来说对于 3D 目标检测,直接回归得到目标的深度信息,3D 目标框的尺寸,目标朝向;对于人体姿态估计来说,将关键点位置作为中心的偏移量,直接在中心点回归出这些偏移量的值。例如对于姿态估计任务需要回归的信息如 Figure4 所示。

03.png

  • 由于模型设计简单,因此在运行速度和精度的平衡上取得了很好的结果。

04.png

网络设计

网络结构

CenterNet 的网络结构如 Figure6 所示。对于 2D 目标检测任务来说,CenterNet 输入512×512分辨率的图像,预测2个目标中心点坐标和2个中心点的偏置。以及80个类别信息。其中 Figure6(a)表示 Hourglass-104,Figure6(b)表示带有反卷积做上采样的 ResNet-18,Figure6(c)表示经典的 DLA-34 网络,而 Figure6(d)表示改进的 DLA-34 网络。
05.png注意这几个结构都是 Backbone 网络,最后只需要在输出特征图上接卷积层映射结果即可。比如在目标检测任务中,用官方的源码(使用 Pytorch)来表示一下最后三层,其中 hm 为 heatmap、wh 为对应中心点的 width 和 height、reg 为偏置量:

(hm): Sequential(
(0): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
(1): ReLU(inplace)
(2): Conv2d(64, 80, kernel_size=(1, 1), stride=(1, 1))
)
(wh): Sequential(
(0): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
(1): ReLU(inplace)
(2): Conv2d(64, 2, kernel_size=(1, 1), stride=(1, 1))
)
(reg): Sequential(
(0): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
(1): ReLU(inplace)
(2): Conv2d(64, 2, kernel_size=(1, 1), stride=(1, 1))
)

前置内容

image.png

image.png

image.png

image.png

image.png

实现细节

论文实验了 4 个结构:ResNet-18, ResNet-101, DLA-34, Hourglass-104。并且使用用 deformable 卷积层来更改 ResNets 和 DLA-34,按照原样使用 Hourglass 网络。得到的结果如下:

1581401536164053.png

image.png

实验结果

可以看到 CenterNet 的精度吊打了 YOLOv3,并且完全的 Anchor-Free使得我们看到了目标检测更好的思路,这篇论文我觉得应该是 2019 年目标检测领域最有价值的论文之一了。

1581401666704150.png1581401649352193.png

贴一个预测可视化效果图看看。

1581401698557587.png

结论

这篇论文可以让我们理解什么是真正的 Anchor-Free,并且另外一个重要点的是这种方法将检测,姿态估计,甚至分割都可以统一起来,做法十分优雅。不过 CenterNet 仍有缺点,例如在图像中,同一个类别中的某些物体的 GT 中心点,在下采样时会挤到一块,也就是两个物体在 GT 中的中心点重叠了,CenterNet 对于这种情况也是无能为力的,可能结果就是只能检测一个目标了,不过这种密集检测的问题本就是这个领域仍未解决的难题,只能期待大牛后续工作了。对我们工程派来说,没有 NMS 后处理以及这种统一多个任务的思想实在是一剂强心针,这个方向的学术研究和工程部署应该会逐渐成熟的。

附录

同期文章

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:OpenCV图像处理专栏十五 |《一种基于亮度均衡的图像阈值分割技术》

下一篇:【目标检测Anchor-Free】CVPR 2019 CenterNet

用户评价
全部评价

热门资源

  • 应用笔画宽度变换...

    应用背景:是盲人辅助系统,城市环境中的机器导航...

  • GAN之根据文本描述...

    一些比较好玩的任务也就应运而生,比如图像修复、...

  • 端到端语音识别时...

    从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...

  • 人体姿态估计的过...

    人体姿态估计是计算机视觉中一个很基础的问题。从...

  • 谷歌发布TyDi QA语...

    为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi...