动作识别新数据集

资源分类

动作识别新数据集

2019-10-16 |

109 |

原标题：动作识别新数据集

来源：AI研习社链接：https://www.yanxishe.com/TextTranslation/1158

动作识别对于许多现实应用至关重要，包括视频监控、医疗保健和人机交互。我们需要怎么做才能根据这些视频中动作对视频片段进行分类？

我们需要识别视频片段的不同动作，这些动作可能在整个视频持续时间内进行，也可能没有。这看起来像图像分类问题，但在这种情况下，任务将扩展到多个帧，并进一步聚合每帧的预测。我们知道，在引入ImageNet数据集后，深度学习算法在图像分类方面做得相当出色。但是，我们是否能在视频分类或动作识别任务能取得相同的进步？

实际上，有许多行为将动作识别变成一项更具挑战性的任务。这包括巨大的计算成本、捕获长上下文，当然还有对良好数据集的需求。

一个好的动作识别问题数据集应具有与 ImageNet 相媲美的帧数和动作类型的多样性，以便将经过训练的体系结构概括为许多不同的任务。

幸运的是，去年提出了几个这样的数据集。让我们来看看。

Kinetics-600

视频数量：500000 动作类别：600 年份：2018

Kinetics-600数据集实例

我们从 Google DeepMind 团队的数据集开始。这是一个 Kinetics 数据集 - 为推进人类动作识别模型而创建的 YouTube URL 的大规模高质量数据集。其最后一个版本名为 Kinetics-600，包括大约 500000 个视频片段，涵盖 600 个人类动作类，每个动作类至少有 600 个视频片段。

Kinetics-600 中的每个片段均取自的YouTube 视频，持续约 10 秒，并标有单个类。片段已经经历了多轮的人为注释，为标记任务构建了单页 Web 应用程序，您可以看到下面的标签界面。

标签界面

如果一个工作人员对最开始问题"你能识别这个人所做动作的类别吗？”回答是“是”的话，他还需要回答“动作持续到最后一帧吗？”
Kinetics-600 的创建者们还检查了数据集是否类别均衡，发现大约 15% 的动作类不平衡，但这不会导致性能上的偏差。

这些动作涵盖了广泛的类别，包括人与物体的互动，如演奏乐器，安排鲜花，修剪草坪，打蛋等。
时间时刻

Moments in Time

视频数量： 1000000 动作类别： 339 年份： 2018

来自 Moments in Time 数据集的样本

Moments in Time 是另一个由 MIT-IBM 沃森人工智能实验室开发的大规模的数据集，它收集了100万个标记为3秒的视频，不仅限于人类行为，还包括人、动物、物体和自然现象，捕捉动态场景的要点。

上述所有场景都属于同一类别的“打开”，尽管它们在视觉上看起来非常不同。因此，正如研究人员所指出的，挑战在于开发深度学习算法，既能区分不同的操作，又能推广到同一操作中的其他代理和设置。

尽管上述的“打开”在视觉上差异很大，但对人类来说还是很好区分的，所以研究员指出，难点在于开发既能够区分不同类别的行为，还能区分同一种行为的不同表现的深度学习算法。

Moments in Time 数据集的行为分类包含了英语中最常用的动词，涵盖了广泛而多样的语义空间。因此，数据集中有339个不同的动作，平均每个类有1757个带标签的视频；每个视频只有一个动作。

标签界面

从图像中可以看出，注释过程非常简单：如果场景中发生动作，则向工作人员显示视频动词对，并被要求按"是"或"否"键响应。对于训练集，研究人员通过注释运行每个视频至少3次，并且需要至少75%的人类共识。对于验证和测试集，他们将最少的批注数增加到 4，人类共识至少为 85%。

SLAC

视频数量：520,000，1.74M个2s的视频片段动作类别：200 年份：2017

数据收集流程

麻省理工学院和Facebook的研究人员小组介绍了一个稀疏标记的ACTIONs数据集（SLAC）。该数据集侧重于人类行为，类似于 Kinetics，包括从 YouTube 检索到的 520K 多个未修剪视频，平均长度为 2.6 分钟。采用新颖的主动采样方法从视频中以2 秒为单位机芯剪辑和采样。这产生了 1.75M视频片段，包括 755K 阳性样本和 993K 阴性样本，由 70 个专业标注团队进行批过。

如您所见，此数据集的显著特征是存在负样本，如下图所示。