资源行业动态MLOD:基于鲁棒特征融合方法的多视点三维目标检测

MLOD:基于鲁棒特征融合方法的多视点三维目标检测

2019-12-30 | |  69 |   0

原标题:MLOD:基于鲁棒特征融合方法的多视点三维目标检测

来源:自动驾驶之家         链接:http://www.heredrive.com/news/20191010/6710.html


本文作者:黄浴(自动驾驶科学家/工程师)

注:这是一篇2019年9月发表在arXiv【1】激光雷达和摄像头数据融合的目标检测论文。

1-1910101606370-L.jpg

 

摘要:本文介绍了一个多视图标记的目标检测器(MLOD)。检测器将RGB图像和激光雷达点云作为输入,并遵循两步目标检测框架。区域提议网络(RPN)在点云的鸟瞰视图(BEV)投影中生成3D提议。第二步将3D提议边框投影到图像和BEV特征图,并将相应的图截取发送到检测头(detector head)以进行分类和边界框回归。与其他多视图方法不同,裁剪的图像特征不直接馈送到检测头,而是被深度信息掩盖以过滤掉3D边框外的部分。图像和BEV特征的融合具有挑战性,因为它们来自不同的视角。这里引入了一种新检测头,不仅可以从融合层提供检测结果,还可以从每个传感器通道提供检测结果。因此,可以用不同视图标记的数据训练目标检测器,以避免特征提取器的退化。MLOD在KITTI 3D目标检测基准测试中实现了最好的性能。最重要的是,评估表明新的头架构(header architecture)在防止图像特征提取器退化方面是有效的。


MLOD架构

大约有三种方法可以利用摄像头和激光雷达做自动驾驶的3D目标检测:1)图像区域建议,2)基于投影和3)多视图方法。

本文提出的两步神经网络结构如图1所示。BEV图和RGB图像被馈入两个卷积神经网络获得特征。 为了提高计算效率,仅使用RPN的鸟瞰视图(BEV)特征生成3D提议。 基于提议的深度信息,3D提议之外的图像特征被前景掩码层(foreground mask layer)掩盖。 然后,掩码的图像特征图和BEV特征图被裁剪并传递到多视图头(multi-view header),提供最终的分类、定位和定向结果。

image.png

图1


6个通道的BEV图输入是一个0.1米分辨率的2D网格,包括5个高度通道和1个密度通道。 点云沿着地平面的法线在[0, 2.5米]之间被划分为5个相等的切片(slices),并且每个切片产生高度通道,每个网格单元表示该单元中的点的最大高度。

该模型采用U-Net结构作为BEV特征提取器。 编码器部分类似VGG的CNN,但有一半的通道。它包括CNN层,最高可达conv-4层。 在解码器部分中,特征提取器使用卷积转置(conv- transpose)操作对特征图上采样。 上采样特征图与来自编码器的相应特征串联实现融合。 图像特征提取器是在pool-5层之前的VGG16 CNN。 


为在提议的3D边框内正确捕获目标的图像特征,本文引入了前景掩码层来过滤掉前景特征。 


为了识别图像的前景和背景,具有每个像素深度信息是必要的。但是由于激光雷达点云的稀疏性,图像平面中的大部分深度信息都是未知的。最近,有几种方法来完整化深度图。不幸的是,它们通常具有高GPU内存使用率,不适合实现。相反,这里引入了一种轻量级方法来利用稀疏深度信息。 


图2显示了前景掩码层的流程。首先,该层用3D提议投影的前视2D边框裁剪并调整其(稀疏)深度图的大小。为了计算方便,调整大小的深度图是k×k大小裁剪图像特征图的n倍。由于深度信息在前视图是不连续的,因此使用最近邻内插算法获得大小调整过的深度图。然后将nk×nk深度图等分成k×k网格。这样,每个网格单元表示k×k图像特征图对应像素的深度信息。该层计算每个网格单元中非零深度值的中值mij,因为零值表示该像素没有激光雷达点信息。请注意,由于点云的稀疏性,网格单元格中的所有深度值都可能为零。

image.png

 图2(a)

 image.png

图2(b) 


由于远目标只有较少的投射激光雷达点,因此这些目标的某些部分没有任何深度信息。为此,为保留3D边框内或没有深度信息的图像特征,将前景掩码设置为前视图,使用最近邻内插算法获得调整大小的深度图。然后,将nk×nk深度图等分为k×k网格。因此,每个网格单元表示k×k图像特征映射中的对应像素的深度信息。因此,为了保留3D边界框内的图像特征或没有深度信息,我们将前景掩码设置为

image.png

 其中dmax和dmin分别是3D边框的最大和最小深度值。 ε1和ε2是小缓冲区,用于吸收3D提议和点云的不确定性。(图2中dmin = 6.8,dmax = 9.7)


在多视图3D目标检测方法中,基于BEV的IoU来分配提议标签。但前视图的IoU可能与BEV的IoU明显不同。图3示出将3D边框分配给负标签但在图像视图中IoU > 0.7的示例。 当仅基于BEV IoU分配标签来训练目标检测器时,(前视图)图像通道的性能降低。

image.png

                                                                      图3 


作者提出了一种多视图检测头,以避免RGB图像特征的衰减。 图4显示了头部网络结构。 关键想法是在融合层(concat)之前为每个通道添加额外的输出层。 两个输出的每一个馈入到相应的子输出(sub-output)损失中。 每个子输出损失是采用在相应通道视图中IoU分配的标签计算,即

 1577694584824676.png 1577694615598641.png

图4 


其中I[> 0]是选择正提案的指标函数,N、Npimg和Npbev分别是总样本数、图像视图和BEV各自的正样本数,yiimg和yibev分别是从图像和BEV分支获得的提议分类得分,yˆi img和yˆibev是相应的GT标签,每个分支预测的角点偏移分别是siimg和sibev,而相应的GT值是sˆi img和sˆibev。 


网络训练

文中使用多任务损失来训练网络,其检测网络的损失函数由下式定义

1577694725334961.png

这里使用平滑L1损失进行3D边框偏移和朝向旋转回归,并使用交叉熵损失进行分类。λ是用于平衡不同损失项的超参数。子输出损失可以被认为是网络上的一种正则化过程。 


KITTI基准测试对汽车类(> 0.7)和行人和骑车者类(> 0.5)使用不同的IoU阈值。因此,文中训练了两个网络,一个用于汽车,另一个用于行人和骑自行车者。用大小是1024个ROI的微批量联合训练RPN网络和检测头。采用ADAM优化器【2】,指数衰减的学习率初始化为0.0001。在汽车网络,每100K迭代衰减0.1。 在步行者和自行车者网络,每20K迭代衰减0.5。图像特征提取器加载预训练的ImageNet权重。BEV特征提取器权重由Xavier统一初始化器(uniform initializer)初始化。 


如果BEV /图像和真实GT目标的IoU分别大于0.65 / 0.7,则汽车建议在自上而下/前视图中被标记为正。 如果其BEV /图像IoU分别小于0.55 / 0.5,则标记为负。 正的行人或骑车者建议在BEV /图像视图中至少分别为0.45 / 0.6 IoU。 负样本分别在BEV /图像视图中不超过0.4 / 0.4 IoU。 对于微批量大小,先选择1024个样本,包括在自上而下的视图中具有最高RPN分数的正ROI和负ROI;然后,在正面视图中挑选正或负的ROI。 


有许多方法可以编码3D边框。 为了减少参数的数量并保持物理限制,3D边框表示为X-Y平面上的四个角,顶部和底部角高度会偏离地平面。 


数据增强是增加训练实例数量和减少过拟合的重要技术。 在这里的网络训练中实现了两种增强方法,即翻转和PCA抖动。点云和图像沿x轴翻转。 PCA抖动会改变训练图像中RGB通道的强度。 PCA分解应用在整组训练图像RGB像素值的集合中。 然后,将高斯随机噪声添加到图像的主分量中。 


实验

主要评估KITTI目标检测基准测试中汽车、行人和骑车人3D检测任务的MLOD性能。 KITTI的3D目标检测数据集包含7,481个训练帧和7,518个测试帧。基于遮挡级别、最大截断和最小边框高度,这些帧包含三个难度级别的目标级对象:简易(E),中等(M)和难(H)。 由于KITTI没有提供官方验证集,标记的7,481帧被分成训练集和1:1比例的验证集。


 图5展示了实验结果例子。每张图像检测到的车辆为绿色,行人为蓝色,骑车者为黄色。

image.png

图5 


为评估MLOD的性能,分别在表II和表I中给出验证集和KITTI测试集的平均精度(AP)结果。 MLOD在验证集上优于其他两个最先进的多视图目标检测器【3-4】。 但是,MLOD方法在KITTI测试集上比AVOD差。 这可能是由MLOD和AVOD中使用不同地平面引起的。评估表明,该方法可以达到当前最佳性能。

 image.png

表I: MLOD与当前3D目标检测器的性能比较

 image.png

表II:在中等难度验证集上MLOD与当前3D目标检测器的AP3D比较 


为评估多视图头网络的影响,将MLOD的AP(%)与验证集不同λsub-cls设置进行比较,如表III。 当λsub-cls /λcls= 0.001时,BEV标记样本的融合通道支配了网络训练,这时候子通道损失可忽略。 表III显示多视图头网络可为图像通道提供显著的性能增益,范围从5%到20%不等。对行人检测的容易、中等和难三种级别,AP最终检测分别增加了6.7%,5.2%和4.5%。图6显示了多视图头网络的效果示例(A栏:λsub-cls /λcl = 0.001; B列:λsub-cls /λcl = 1)。注意:当λsub-cls /λcls= 1,图像通道正确地为激光雷达BEV中误报的行人记分0.0。

image.png

 表III 不同的λ设置在验证集上评估MLOD的AP3D性能

 image.png

图6


表IV显示了掩码组件如何影响MLOD的性能。

image.png

表IV 前景掩码层的效果

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:激光SLAM|SuMa:基于Surfel地图的室外大场景SLAM

下一篇:三雄争霸开启 智能座舱2019那些事

用户评价
全部评价

热门资源

  • 国内人才报告:机...

    近日,BOSS 直聘职业科学实验室 &BOSS 直聘研究院...

  • AI使物联网更智能...

    看到微软对物联网和人工智能的结合感兴趣是一个明...

  • 推荐一批学习自然...

    这里推荐一批学习自然语言处理相关的书籍,当然,...

  • 机器学习中的线性...

    机器学习中的线性回归是一种来源于经典统计学的有...

  • 基于Spark的数据分...

    Spark是在借鉴了MapReduce之上发展而来的,继承了...