计算机视觉自动化标注技术入门

资源分类

计算机视觉自动化标注技术入门

2019-12-20 |

105 |

标注自动化

前言

这篇文章是对基于图像的深度学习最常用的实现方法（通常称为基于图像的人工智能或AI），基本标注方法，标注类型和实现此任务的自动化级别的高层探讨。

本文旨在介绍我们将在后续帖子中深入探讨的主题。对于希望实现基于图像的AI或正在开始研究并掌握这一技术的人们，它是一个有用的指南。为了更好的理解，我们简化了以下一些概念。

标注简介（也称为标签）

基于图像的AI使用标记数据进行训练。这也称为“真实数据”，“标记的”或“标注的”数据。不同的数据科学模型有多种类型的“标注”。它们各不相同，包括“关键点”标注，“插值”，“姿势估计”等。出于本文的目的，我们将重点介绍四种最常用的标注类型（图1）：

图1 —标注的类型（并非详尽列表）

分类（通常称为打标签）

这有助于快速指示图像的属性。它包括图像中是否存在物体，情绪或背景。这是最简单的标注形式，也是我们在Google验证码等功能中看到的一种形式。但是，功能有限，因为目标的位置，形状和唯一属性是未知的，并且需要注解数百万个图像才能通过此方法可靠地了解此细节。

目标检测（又称边界框）

这对于在图像中定位离散目标很有用。标注相对简单，因为只需在目标对象周围绘制一个紧密的框即可。这样做的好处是，存储此信息和所需的计算相对较轻。缺点是框中的“噪声”（捕获的“背景”）通常会干扰模型学习目标的形状和大小。因此，当“遮挡物”（重叠的物体或障碍物）的水平很高或物体形状的差异很大并且信息很重要时，这种方法会很困难，请考虑一下生物细胞或衣服的类型。

物体检测-“噪音”是边界框中包含的沙子

语义分割

这对于指示不重要的事物的形状很有用，例如天空，道路或仅仅是背景。这样做的好处是，在标注每个像素时，整个图像上的信息要丰富得多。您的目标是确切知道区域的位置及其形状。这种方法的挑战在于每个像素都需要标注，并且该过程既耗时又容易出错。

实例分割

这在指示离散目标（例如轿厢1，轿厢2，花朵a，花朵b或执行器）时很有用。这样做的好处是，可以更快地了解对象的形状和属性，不必显示更少的示例，并且与对象检测相比，遮挡的处理要好得多。挑战在于该方法具有非常耗时且易于出错的标注过程。

注意：“全景”标注的最新方法是将语义和实例分割组合到一个模型中。

分割的挑战

手动分割-在一分钟内标记对象

如您所见，实例和语义分割非常耗时，因为需要手动勾勒出精确的目标对象点与“多边形”的点，甚至像素与“蒙版”的点。这就是为什么它容易出错的原因。实际上，世界上最好的标注的错误率为4–6％，而普通人的错误率为8–9％。该错误率对所得AI的性能产生重大影响，并且通常是阻碍项目进行概念验证阶段的项目。

现在假设目标对象很复杂，例如有机细胞或机械物品。此外，如果错误的余地很小，因为模型错误决策的后果可能是可怕的，甚至是致命的。通常，在这些特殊案例中的情况下，分割具有最大的实用性，是实现高性能模型所必需的。

构建基于图像的AI所需的工作中有70％是标注工作。如果您看到一个AI在实践中工作（例如自动驾驶），那么您就会知道人们花了数百万小时才能创建足够的带标签数据来训练该神经网络，以至团队感到足够有信心将其投入生产。即使那样，在部署模型之后，还是经常需要重新标记或标记其他数据。

当需要专家标注这些图像时，使此手动工作自动化的好处最大。典型的用例包括医学和生物成像，机器人技术，质量保证，先进材料和农业。考虑一下您正在构建一个AI来帮助一个需要多年才能成为该领域专家的案例。

自动化水平

机器视觉自动化的目标是通过提供尽可能少的输入来确定目标的轮廓。在本节中，我们将主要指的是自动执行分割任务，因为这通常是最费力的工作。

在这种情况下，自动化级别可以概括为以下内容：

级别1：单个图像中的单个对象

级别2：单个图像中有多个对象

级别3：估算多个图像中多个对象的轮廓

目的是为给定项目准确估计所有图像中所有对象的轮廓。

级别1-只需几秒钟即可标注对象

使用从著名的“ OpenCV”框架中流行的经典计算机视觉方法，到Photoshop已知的工具，甚至某些新颖的基于AI方法的工具，都是旨在使标注单个对象的尽可能自动化。级别1工具的示例包括：

轮廓|根据对比看轮廓

>非常适合背景下对比的模型物体

GrabCut |从前景中提取预定义区域的背景

>非常适合单色背景上的物体

魔术棒|通过在给定范围内找到选定像素附近的相似像素来选择区域

>非常适合单色（或接近）物体

DEXTR |使用在大型通用数据集上训练的模型来尝试识别已定义区域内对象的轮廓

>非常适合动态背景下的动态对象

DEXTR —在几分钟内标记完整图像

注意：批注工具经常声称具有DEXTR等功能的“自动标记”。但是，它仍然是一个手动工具，依赖于先前在通用数据集上进行过的训练，可为您提供每个对象的建议。别误会，这个工具很棒，可用于实现1级自动化，但与完整的“自动标记”相去甚远。

级别2 --- 用几秒钟的时间标注一整幅图像

到这个级别，你尝试一键搞定一幅图像中所有物体的标注工作。这有点接近当今最新的深度学习技术。由于人工输入的内容大幅减少，相对级别1而言，节约的时间将非常可观。但是，比起级别1来，实现这样的自动化水平需要（工具）有更高的置信度。这意味着一个人只能从使用级别1的工具开始一个标注项目，直到级别2的工具可用。

实例分割助手 - 几秒钟标注一整幅图像

级别2的自动化水平可以通过使用AI助手来实现。这些助手工具在你标注的时候自动在后台学习。当它们达到了一定的置信分数之后，作为用户的你就可以开始使用它的功能，不仅得到图片中单个目标的提示信息，而且可以得到整个图像的目标提示信息。随着完成的图片数量越来越多，AI助手不断重新学习，并自我改进。

级别3 --- 用几秒钟的时间标注一整批图像/项目

当标注的自动化程度达到了这个水平，作为用户的你应该可以在短短几秒内完成一套图片，甚至是一整个项目图片的标注工作。试想一个场景，一个用户仅仅点击一个按钮，一个项目中的所有图片就完成标注。

几秒钟完成一整个数据集的标注工作

虽然功能非常强大，使用级别3的工具仍伴随着挑战。例如，假设你需要标注一个包含10000个动物图像的数据集，其中有1000个图像已经被标注。级别3工具尚难以区分青蛙和蟾蜍，那么剩下的9000张图片如果由工具自动标注，将对结果产生严重的影响。本应该标注为蟾蜍的图像被标注成了青蛙，青蛙被标注成了蟾蜍。这样的标注结果是无法使用的。以上的错误属于分类错误 - 只是有可能发生的4种错误中的一种。其他可能的错误包括误标注、不准确的图像分割，和漏标注。

所以，为了使用级别3的工具，你需要非常确信你的结果是准确的，错误率很低（<0.5%)。这个确信的程度可以考虑级别2自动化过程中的用户行为，比如进行较少量的调整，或不进行调整，看标注的结果，来确定置信度。

在Hasty，我们正在向级别3工具努力，但这样的工具仍在开发过程中，需要几个月的时间才能面世。在这个工具中，类似“错误查找器”这样的功能变得很关键，但是需要另一篇新的文章来描述。

-----------------------------------------------------------

发起：唐里校对：唐里审核：鸢尾

参与翻译（2人）：天字一号、晨chen

英文原文：An Introduction to Automation in Vision AI

一THE END一

免责声明：本文来自互联网新闻客户端自媒体，不代表本网的观点和立场。

合作及投稿邮箱：E-mail:editor@tusaishared.com

上一篇：yolov2 实战：从网络摄像头、视频文件和 youtube 中检测目标

下一篇：超强大自动NLP工具！谷歌推出AutoML自然语言预训练模型

用户评价