资源技术动态【目标检测Anchor-Free】CVPR 2019 CenterNet

【目标检测Anchor-Free】CVPR 2019 CenterNet

2020-02-11 | |  64 |   0

原标题: 【目标检测Anchor-Free】CVPR 2019 CenterNet

来源:AI 研习社       链接: https://www.yanxishe.com/columnDetail/17730


传统的基于关键点的目标检测方法如 CornerNet 就是利用目标左上角的角点和右下角的角点来确定目标,但在确定目标的过程中无法很好的利用目标内部的特征,导致产生了很多误检测(在讲 CorenerNet 的时候已经提到 CornerNet 最大的瓶颈是角点检测不准确,这正是因为它提出的 Corner Pooling 更加关注目标的边缘信息,而对目标内部的感知能力不强)。为了改善这一缺点,CenterNet 提出使用左上角,中心,右下角三个关键点来确定一个目标,使网络花费很小的代价就具有了感知物体内部的能力,从而可以有效的抑制误检。同时,为了更好的检测中心点和角点,论文提出了 Cascade Cornet Pooling 和 Center Pooling 来提取中心点和角点的特征。CenterNet 在 MSCOCO 数据集上获得了 47% 的 mAP 值,是 One-Stage 目标检测算法中的精度最高的。论文中 CenterNet 提到了三种用于目标检测的网络,这三种网络都是编码解码(encoder-decoder)的结构:

  • Resnet-18 with up-convolutional layers : 28.1% coco and 142 FPS

  • DLA-34 : 37.4% COCOAP and 52 FPS

  • Hourglass-104 : 45.1% COCOAP and 1.4 FPS

原理

上面已经提到了 CornerNet 的缺点,即全局信息获取能力弱,无法很好的对同一目标的两个角点进行分组。如 Figure1 的上面两张图所示,前 100 个预测框中存在大量长宽不协调的误检,这是因为 CornerNet 无法感知物体内部的信息,这一个问题可以借助互补信息来解决如在 Anchor-Based 目标检测算法中设定一个长宽比,而 CornerNet 是无法解决的。因此,CenterNet 新预测了一个目标中心点作为互补信息,并且提出了 Center Pooling 和 Cascade Cornet Pooling 来更好的提取中心点和角点的特征。如 Figure1 下方的两张图所示,预测框和 GT 框有高 IOU 并且 GT 的中心在预测框的中心区域,那么这个预测框更有可能是正确的,所以可以通过判断一个候选框的区域中心是否包含一个同类物体的中心点来决定它是否正确。

1581402005480646.png

1581402022199793.png

1581402039900473.png

方法

基准线和动机

image.png

CenterNet

下面的 Figure2 是 CenterNet 的结构图。

1581402110949609.png

网络通过 Center Pooling 和 Cascade Corner Pooling 分别得到角点热力图和中心点热力图,用来预测关键点的位置。得到角点的位置和类别后,通过 Offsets 将角点的位置映射到输入图片的对应位置,然后通过 embedings 判断哪两个角点属于同一个物体,以便组成一个检测框。这个过程其实就是 CornerNet 的组合过程,CenterNet 的不同之处在于它还预测了一个中心点,对于每个目标框定义一个中心区域,通过判断每个目标框的中心区域是否含有中心点,若有则保留,并且此时框的置信度分数为中心点、左上角点和右下角点的置信度分数的平均值;若无则去除,使得网络具备感知目标区域内部信息的能力,能够有效去除错误的目标框。

另外一个问题是如何定义中心区域,如果定义的中心区域太小会导致很多小尺度的错误目标框无法被去除,而中心区域太大会导致很多大尺度的错误目标框无法去除,为了解决这一问题论文提出了尺度可调节的中心区域定义法。具体如公式(1)所示。

06.png

其中的值根据边界框是否大于进行设置为,可视化效果如 Figure3 所示。

07.png

丰富中心点和角点特征

  • Center Pooling:一个物体的中心点不一定含有可以和其它类别有很大区分性的语义信息(例如人的头部含有很强的易区分于其它类别的语义信息,但是人这个物体的中心点基本位于身体的中部)。下面的 Figure4(a)表示 Center Pooling 的原理,Center Pooling 提取中心点水平方向和垂直方向的最大值并相加,给中心点提供除了所处位置以外的信息,这使得中心点有机会获得更易于区分于其他类别的语义信息。Center Pooling 可通过不同方向上的 Corner Pooling 的组合实现,例如一个水平方向上的取最大值操作可由 Left Pooling 和 Right Pooling 通过串联实现。同理,一个垂直方向上的取最大值操作可由 Top Pooling 和 Bottom Pooling 通过串联实现,具体操作如 Figure5(a)所示,特征图两个分支分别经过一个,然后做水平方向和垂直方向的 Corner Pooling,最后再相加得到结果。

1581402151294131.png

1581402171156940.png

  • Cascade Corner Pooling:这一模块用于预测目标的左上角和右下角角点,一般情况下角点位于物体外部,所处位置并不含有关联物体的语义信息,这为角点的检测带来了困难。Figure4(b)是 CornerNet 中的做法即提取物体边界最大值进行相加,该方法只能提供关联物体边缘语义信息,对于更加丰富的物体内部语义信息则很难提取到。所以这篇论文提出了 Cascade Corner Pooling,原理如 Figure5(b)所示,它首先提取出目标边缘最大值,然后在边缘最大值处继续向物体内部(如 Figure4(c)所示)提取最大值,并和边界最大值相加,以此给角点提供更丰富的关联目标语义信息。Figure5(b)展示了 Cascade Top Corner Pooling 的原理。这里需要注意一下 Cascade Corner Pooling 只是为了通过内部信息丰富角点特征,也就是级联不同方向的 Corner Pooling 实现内部信息的叠加,最终的目的还是要预测角点,所以最终左上角点通过 Cascade Top Corner Pooling+Cascade Left Corner Pooling 实现,右下角点通过 Cascade Right Corner Pooling+Cascade Bottom Corner Pooling 实现。

训练和推理

image.png

实验结果

最终的实验结果如 Table2 所示:

1581402265207321.png

可以看到 CenterNet 获得了 47% 的 mAP,超过了所有的 One-Stage 算法,领先幅度越 5%,并且精度和 Two-Stage 的目标检测算法的最好结果也是接近的。

下面的 Table3 是 CenterNet 与 CornerNet 的单独对比,可以看出在 MS COCO 数据集上 CenterNet 消除大量误检框,尤其是在小物体上。

11.png

下面的 Figure6 展示了 CenterNet 和 CornerNet 的对比结果。(a) 和 (b) 表明 CenterNet 能有效去除小尺度的错误目标框。(c) 和 (d) 表明 CenterNet 能有效去除中等尺度和大尺度的错误目标框。(e)是否采用 Center Pooling 检测中心点。(f)对比分别使用 Corner Pooling 和 Cascade Corner Pooling 检测角点。

1581402302929219.png

下面的 Figure7 展示了置信度在 0.5 以上的目标框分布情况,可以看到 CenterNet 去除了大量错误的目标框,因此即使在目标框的置信度比较低的情况下,依然可以保证较好的效果。

1581402324387946.png

下面的 Table4 是消融实验。分别说明了本文提出的 CRE(中心点加入),CTP(中心点池化),CCP(级联角点池化)的有效性。

1581402344912097.png

最后 Table5 是错误实验分析,将检测的中心点用真实的中心点代替,实验结果表明中心点的检测准确度还有很大的提升空间。同时该结果还表明要想更进一步的提升检测精度,需要进一步提升中心点的检测精度。

15.png

结论

这篇论文在 CornerNet 的基础上增加了一个中心点来消除误检框,基本想法来源于:“网络具备感知物体内部信息的能力”,并且论文提出的这一思想也可以用于其他的 Anchor-Based 或者 Anchor-Free 的目标检测算法中带来效果提升。

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:【目标检测Anchor-Free】CVPR 2019 Object as Points(CenterNet)

下一篇:计算机视觉应用解惑之 Exif 方向

用户评价
全部评价

热门资源

  • 应用笔画宽度变换...

    应用背景:是盲人辅助系统,城市环境中的机器导航...

  • 人体姿态估计的过...

    人体姿态估计是计算机视觉中一个很基础的问题。从...

  • GAN之根据文本描述...

    一些比较好玩的任务也就应运而生,比如图像修复、...

  • 端到端语音识别时...

    从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...

  • 谷歌发布TyDi QA语...

    为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi...