通过自动分析俯拍图像来加快灾难响应速度

2019-11-13 |

112 |

原标题：通过自动分析俯拍图像来加快灾难响应速度

来源：AI研习社链接：https://www.yanxishe.com/TextTranslation/1607

一系列DigitalGlobe 的 WorldView-2 卫星影像显示了拍摄角度的变化对成像的影响，影像数据来自 SpaceNet MVOI 数据集

在本文中，我们将介绍利用从空中拍摄的影像自动生产地图所面临的挑战。尽管从理想的影像生成地图的算法都比较出色，但这些计算机视觉的算法对于紧急情况下（如自然灾害后）拍摄的影像仍难以有效处理。

现状

随着计算机视觉算法的改进和空中影像可获取性的提高，科学家们正在探索将不同领域的应用统一起来：其中包括监测森林砍伐和跟踪难民人口动态。自动空中图像分析可以帮助快速救灾：新的地图在灾害发生后往往是必不可少的，因为道路可能会损毁，通讯会中断。目前，这些工作主要由政府、私营部门或HOT-OSM团队等志愿组织团队手动完成的，应美国联邦紧急事务管理局（FEMA）的要求，他们在Maria飓风之后创建了波多黎各的地图（道路和建筑物）。但是，手工标注既费时又费力：即使有5300名地图绘制者在该项目上工作，波多黎各的第一张基本地图直到飓风袭击后一个多月才交付，而且该项目在一个月内也没有正式完成。这绝不是对 HOT-OSM 团队的批评，因为他们有 950000 栋建筑和 30000 公里的道路来标记！即使是初步的自动贴标步骤（之后人工再手动更正）也可以缩短地图交付时间。

基于计算机视觉从空中影像创建地图已经走过了漫长的道路，当深度学习模型已经发展起来，从TensorFlow 存在之前就已经实现的 AlexNet ，到当今的高级模型架构，包括 Squeeze and Excitation Networks 、Dual Path Networks和其他高级模型在 Keras等工具包中都能很容实现。随着这些模型发展，自动制图的性能稳步提高， SpaceNet 竞赛系列证明了这一点：2018 年底在直接从空中拍摄的图像上进行建筑提取的分数比2016 年第一次提高了近三倍。

为什么在自然灾害后我们不能自动生成地图呢？

空中影像自动制图的一个主要障碍就是视角的问题。

视角原理

卫星的位置决定了可以观测到的区域，这受到卫星轨道的限制。在紧急情况下，卫星没有时间直接飞到目标区域上空，拍摄的图像就存在一定的角度，有时角度会很大。DigitalGlobel 的监测平台在飓风玛丽亚发生 2 天后才首次公开波多黎各圣胡安上空无云影像，其视角为 52 度。为了进行比较，前文动画中的图像最大偏离角度为 54 度。

非垂直摄影的图像有许多特征，对自动制图提出了挑战：

移位和失真

在非垂直图像中，高物（树木、建筑物等）的顶部与地面足迹相偏离。这使得分割具有挑战性！

垂直影像中建筑物的轮廓线很清晰，非垂直影像建筑物底部偏离，这一点需要考虑

阴影和光线变化

空中影像中，区域的可视范围可能因阴影而异。请参阅下面的示例，当阳光反射回卫星时，建筑物显而易见，但光从建筑物的阴影面收集时，则要少得多。

以几乎相同的视角看同一座建筑，但从城市的不同侧面看，由于阴影的存在，在朝南的图像中很难看到建筑物。图像由数字地球提供。

物体遮挡

非垂直影像中，高建筑会遮挡其他物体，导致影像上难以识别其他低矮物体。

非垂直影像上遮挡会使得看不到某些物体。垂直影像上尽管地建筑会被阴影遮挡，单其屋顶是可见的（左，红色箭头）中

分辨率

一张以较大角度拍摄的图像可以覆盖更多地面范围，但仍然包含相同数量的像素，从而降低了地面分辨率。SpaceNet多视图空中图像（MVOI）数据集中，垂直摄影拍摄图像的分辨率为0.51米/像素，而非垂直影像的分辨率非常低，降至1.67米/像素。这一点文章前面的动画中显而易见——随着图像倾角越大，分辨率会越来越低。为了了解这些因素对模型性能的影响程度，我们需要一个标记良好的数据集，用于控制除角度之外的所有变量。

SpaceNet MVOI 数据集

为了研究视角对模型性能的影响程度，我们发布了SpaceNet MVOI数据集，该数据集可以在AWS S3上免费获得，下载链接请点击这里。

图像

数据集源自 DigitalGlobe WorldView-2 卫星在一次飞越美国佐治亚州亚特兰大期间的一系列影像集合。卫星拍摄了27张图像，视角范围从7度到54度，包括朝北和朝南的视角：

SpaceNet 4非垂直影像数据集获取影像时刻卫星位置，这种非比例尺

表述被简化：实际上，卫星没有直接通过亚特兰大，而是在其附近。有关详细信息，请参阅此论文和数据集元数据。

每个数据集合覆盖相同的665平方公里内和亚特兰大周围。因为它们都是在5分钟内获得的，因此光线、土地类型和其他时间因素的变化被最小化，唯一变化是视角。

SpaceNet MVOI中的示例，视角显示在左侧，以及 bin ID：垂直摄影，视角2小于5度，视角大于25度小于40度，视角大于40度。负数对应于朝南，正数对应于朝北。图像由数字地球提供。

完全相同的地物看起来非常不同，这取决于视角和朝向。了解其对算法性能的影响，在遥感分析和一般计算机视觉领域都有应用。

标签

SpaceNet 合作伙伴 Radiant Solutions 对影像做了严格的标记，绘制了数据集中约 126747 个建筑物的多边形轮廓。我们使用轮廓线而不是边界框，因为边界框通常不足以完成制图。例如，如果建筑物轮廓线与道路重叠这实际是真的，而不是标记的错误。我们进行了仔细的质量控制，以确保所有建筑物都贴上标签，因为高质量的标签对于训练计算机视觉模型至关重要（也就是说，如果数据集中只有一半建筑物标记为此类，算法如何学会查找建筑物？）建筑占地面积从 20 平方米到 2000 多平方米不等，数据集内不同地域的密度差异很大：

直方图显示了数据集中每一影像中的建筑物数。X 轴：图像中明显的建筑物数量，范围从 0（主要是林区）到 297（非常密集的郊区）。Y 轴是来自具有该建筑物数的唯一地理位置的图像数，将该数字乘以 27 表示图像总数。

这种变量本身也带来了挑战，因为算法无法了解到每个图像中应存在大致相同的对象数。对于目标检测（边界框预测）算法来说，这尤其困难，因为算法通常需要估计每个图像作为超参数的目标数。

标签完成后，我们重新采样图像，使其每个像素覆盖的地面面积相同，然后将图像和标签分成 900 x 900 像素，以便更轻松地创建模型输入。处理完成后，我们将它分为三个部分：一个大型训练集和两个较小的测试组，一个用于公共测试，一个用于最终竞争验证。我们发布了训练集的影像和标签，仅为公共测试集发布了图像和标签，并隐瞒了最终测试集的所有内容。

The SpaceNet 4: 非垂直影像的建筑物轮廓提取挑战赛

赛事简介

数据集完成后，我们用算法去评测SpaceNet非垂直影像的轮廓提取挑战赛。参赛者利用算法去识别建筑物不同视角下的轮廓，奖金为$50000.

评价

分割任务的常见评估方式是逐像素评分，但我们对参赛者的要求更多：建筑物的实际多边形轮廓线。在部署上下文中，这些功能非常有用，因为在一些应用中经常需要了解各个建筑物的位置。为了对其多边形预测进行评分，我们使用IoU指标：

按实例 IoU 指标对算法进行评分。算法为每个图像的建筑物生成建议结果，地面真实轮廓和预测轮廓之间的交集大于这些轮廓并集的 50% 即为预测成功。所有其他预测均为失败（误报）。

我们为正确预测的IOU阈值设置为0.5，在评分后，计算每个视角组中的真阳性、假阳性和假负数（垂直影像/倾斜影像/大倾角影像）。我们计算了每个指标的 F1 分数，因为该指标会惩罚误报和虚警。最后，我们平均这三个F1得分作为最后比赛分数。

近250名选手报名参赛，产生了500多份独特的参赛作品。结果如下！

获胜算法

评分总结

首先让我们看一看前五名参赛者的得分：

与基准模型相比，参赛者在SpaceNet 4中的得分：非垂直影像的建筑物检测挑战赛结果与基准模型相比较。每个分数表示具有特定视角的整个图像集（总体）或影像子集的 SpaceNet 指标：垂直影像，视角为7-25 度;非垂直倾斜影像，视角26~40度;大倾斜影像，视角大于40度。

这些结果中有一些关键要点需要强调：

1.两年前 SpaceNet 建筑识别竞赛首次开始，建筑物识别获胜算法 IoU-F1仅为 0.3 ，现在精度更高，速度更快！

2.非垂直影像（25–40 度的视角）提取建筑轮廓几乎可以与垂直影像一样实现。这个知识可以为图像采集决策提供信息，因为我们现在知道，想获得垂直影像是比较困难的。

3.建筑轮廓提取仍然极具挑战性（特别是影像的视角大于40度时）。这些图像的性能降低了约 25%，我们接下来将探究一下原因。

获胜算法总结

顶级参赛选手提供了 Dockerized 版本的算法，包括完整的解决方案代码和书面摘要，这些版本已在此处公开提供。除了这些摘要，我们还检查了每个竞争对手使用的算法，并发现了一些有趣的细节。

在 SpaceNet 倾斜影像建筑轮廓提取挑战赛中，前 5 名竞争对手使用的模型摘要。有关参考链接，请参阅此帖子的结尾。

详细信息如下：

各种深度学习模型（但没有经典机器学习）：

我们很惊讶，有这么多不同的深度学习模型架构，而且他们的分数也很相似。一些参赛者使用大量的组合（超过 20 个独立训练的模型）来生成与建筑物对应的像素预测，然后对这些预测进行平均计算，得到最终结果。另一个参赛者（number13）为每个子集训练了一组不同的权重，然后使用相应的模型权重为每个图像生成预测。

对于每个获胜算法都使用深度学习，我们并不感到意外。这与计算机视觉的一般趋势相一致：几乎所有高性能细分算法都利用深度学习。唯一使用的"经典"机器学习算法是梯度提升树，其中前两个竞争对手 - cannab 和 selim_sef - 用于从神经网络中过滤出不好的建筑物轮廓预测结果。

针对特定（或相关）地理空间问题的建模

这些算法教会了我们很多关于根据空中影像建立模型。建筑物的像素仅占整个训练数据集的 9.5%。分割算法经过训练，将单个像素分类为属于目标（此处为建筑物）或背景。在这种情况下，算法可以通过预测所有事物的"非建筑物"来实现高像素精度！这会导致使用"标准"损失函数（如二进制交叉熵）训练的算法在预测大量的背景时难以发挥作用。参赛选手通过两种方法克服了这一问题：1. 使用相对较新的焦点损失，这是一种交叉熵变体，可过度惩罚低置信度预测，2. 将这种损失函数与基于 IoU 的损失（如 Jaccard Index或 Dice系数）相结合。这些损失函数通过惩罚预测不足来防范"欠预测"。

空中影像（以及诸如小型密集目标实例分割等相关问题）的另一个挑战是目标的合并。上述语义分割方法对分离单个目标没有任何帮助（一种称为"实例分割"的任务，这是参赛选手在此挑战中被要求执行的任务）。实例分割通常通过将连续对象标记为单个实例从语义掩码中提取;但是，语义分割可以生成像素掩码，其中附近的对象彼此错误地连接（请参阅下面的示例），可能会导致问题：

从连接的建筑物进行实例分割（左）和从独立的建筑物中进行实例分割，红色箭头表示差的预测结果与建筑物紧密相连有关。

如果在一个案例中需要了解图像中存在的目标数量或其精确边界的位置，则这是一个问题。几个参赛者通过创建多通道学习目标掩码来应对这一挑战，如下所示：

从 cannab解决方案中获得的示例像素掩码。黑色是背景，蓝色是第一通道（建筑物轮廓），粉红色是第二通道（建筑物边界），绿色是第三个通道（点非常接近两个不同或更多的建筑物）。Cannab 的算法学会了预测此形状的输出，在后处理中，他从预测的轮廓中减去边界和接触点，从而更有效地分离实例。

该算法现在不仅预测每个像素是否为建筑物，还有效地预测了三件事：1.建筑物/非建筑物，2.建筑物边缘/ 非边缘，3.建筑物之间的接触点/非接触点。后处理可减去边和接触点，可以允许"清理"被定位的对象，从而改进实例分割。

培训和测试时间各不相同

比赛规则要求参赛者的算法在7天内、4个Titan Xp GPU上训练，并在不超过1天完成测试。上表细分了训练和测试时间。值得注意的是，其中许多解决方案可能太慢，无法在需要持续、及时更新的产品环境中部署。有趣的是，大量组合的单个模型也许可以单独使用，而不会在性能上大幅下滑（速度也显著地提高）-例如，cannab 在他的解决方案描述中指出，他的最佳个体模型得分几乎和组合模型一样好。

算法处理非垂直影像的优缺点

我们问了几个关于SpaceNet非垂直影像挑战书获胜算法的问题：

1. 获胜算法识别的每栋建筑的哪一部分？即，轮廓的精确程度如何？

2. 每个算法如何跨不同视角执行？

3. 不同算法的预测有多相似？

4. 建筑物大小是否会影响确定建筑物的可能性？

这些问题在 CosmiQ Works博客， The DownlinQ 将详细探讨。有趣的要点摘要如下。

建筑物轮廓的精确度如何？

当我们开始 SpaceNet 非垂直影像挑战赛时，我们设置了 0.5 的 IoU 阈值来检测建筑物，这意味着在地面真实轮廓和预测的所有像素中，需要重叠50%才能算作成功。根据使用者的具体情况，此阈值可能高于或低于实际需要。低 IoU 阈值意味着不关心建筑物标记正确程度，只关心其中的某些部分被标识，这适用于计算对象。但如果需要精确的轮廓（例如，在灾难后本地化损坏），则不起作用。在评估用于产品部署的计算机视觉算法时，务必考虑此阈值：如何为用户标记目标？

如果我们更改了这个阈值，算法的建筑物召回率（确定的地面真实建筑的一部分）将会发生什么。结果是惊人的：

召回率，或算法标识的实际建筑物的分数取决于 IoU 阈值。某些算法识别了许多建筑物的一部分，但不足以在阈值 0.5 处被计算为成功识别。图内注释显示 IoU 阈值的范围，其中 XD_XD（橙色）的算法随着阈值的增加，从前五名中的最好算法之一，变成了获奖者中最差的算法之一。

如果阈值设置为低于 0.3 左右，则参赛者识别的建筑物中，大多数达到此分数（如果不是更好）时，参赛选手的表现几乎没有变化。但是，此后性能变开始下降，一旦阈值达到 +0.75，分数就会下降 50%。这种明显的下降凸显了计算机算法可以改进的另一个领域：小对象的实例级分割精度。

不同视角的性能表现

接下来，让我们来了解每个参赛者的算法在不同的角度上的表现。我们将了解三个性能指标：召回率（确定的实际建筑物的分数）、精度（与真实建筑物相对应的预测建筑物的分数，而不是误报）和 F1 分数，这是将召回率和精度两者结合在一起的竞争指标：

前五名参赛者不同视角影像的F1 得分、召回率和精度。除了在垂直影像，不同参赛者的F1得分和召回率相对紧密，其他角度影像精度变化很大

不出所料，竞争对手在这些图表中的表现非常相似，这与他们在排行榜上的排名一致。最值得注意的是这种分离出现的地方：参赛选手的在近垂直影像（视角0~25度）都很接近。事实上，前两个参赛者cannab和selim_sef之间唯一具有实质性差别是角度大于45度。cannab 在非常倾斜的图像上，算法性能较好。

这些图表的最后一点说明：中间角度范围内有一些奇怪的尖峰。朝南拍摄的图像得分较低，其中阴影遮挡了许多特征，而朝北图像具有建筑物中明亮的阳光反射。

从城市的不同侧面、以几乎相同的视角看同一座建筑，在朝南的图像中很难看到建筑物，显然神经网络也是如此！图像由数字地球提供。

在我们的基准模型中，这种表现甚至更强。看来，影像的角度并不重要，方向也很重要！

获胜算法的相似点

我们仔细检查了图像上的每个建筑物，看看有多少算法准确地识别了它，结果如下。

直方图表示有多少算法识别了数据集中的建筑物，按视角子集分布。绝大多数建筑都可由前五种算法或非前五名算法确定，只有很少一部分只能由前五种算法确定。

在垂直影像和非垂直影像中，超过 80% 的建筑物是可以由非前五名算法或前五种算法来识别！这意味着这些算法只在识别大约 20% 的建筑物的能力上有所不同。鉴于神经网络架构的巨大差异（以及训练和生成不同算法预测所需的计算时间），我们发现这一点值得注意。

性能与建筑物大小

此数据集中的建筑轮廓线的大小变化很大。我们给参赛者打分依据他们是否有能力识别一切大于20平方米的建筑，但竞争对手在其他大小的建筑表现同样出色吗？下图回答了这个问题。

不同尺寸（x 轴）的建筑物轮廓大小与建筑物轮廓提取召回率（y 轴）的关系。蓝色、橙色和绿色线表示给定大小的建筑物轮廓，红线表示数据集（右 y 轴）中该大小的建筑物轮廓数。

即使是最好的算法在小建筑上的表现也相对较差。cannab只识别了大约20%小于40平方米的建筑物，即使在图像中倾斜视角低于25度。该算法在面积为105 平方米以上建筑物的达到峰值性能，但这仅对应于数据集中大约一半的目标。但值得注意的是，该算法正确识别了处置影像中大约 90% 面积大于 105 平方米的建筑物。

结论

排名前五的参赛选手很好地解决了这一挑战，实现了出色的召回率和相对较低的错误预测。尽管他们的神经网络体系结构各不相同，但他们的解决方案产生了惊人的相似预测，强调神经网络体系结构的改进降低了构建占用空间提取和类似任务的回报 – 开发更好的损失功能、预处理和后处理技术以及针对特定挑战的优化解决方案可能会提供更多价值。目标大小可能是空中影像中分割的一个显著限制，并且视角和方向会显著影响性能。最后，通过检查 GitHub 上获胜的选手的代码以及他们对其解决方案的描述，可以学到更多知识，我们鼓励您进一步探索他们的解决方案！

模型参考：

https://arxiv.org/abs/1505.04597

https://arxiv.org/abs/1709.01507

https://arxiv.org/abs/1707.01629

https://arxiv.org/abs/1409.0575

https://arxiv.org/abs/1512.03385

https://arxiv.org/abs/1608.06993

https://arxiv.org/abs/1602.07261

https://arxiv.org/abs/1612.03144

https://arxiv.org/abs/1703.06870

https://arxiv.org/abs/1405.0312

https://www.crowdai.org/challenges/mapping-challenge