资源技术动态动作识别新数据集

动作识别新数据集

2019-10-16 | |  109 |   0

原标题:动作识别新数据集

来源:AI研习社        链接:https://www.yanxishe.com/TextTranslation/1158


动作识别对于许多现实应用至关重要,包括视频监控、医疗保健和人机交互。我们需要怎么做才能根据这些视频中动作对视频片段进行分类?


我们需要识别视频片段的不同动作,这些动作可能在整个视频持续时间内进行,也可能没有。这看起来像图像分类问题,但在这种情况下,任务将扩展到多个帧,并进一步聚合每帧的预测。我们知道,在引入ImageNet数据集后,深度学习算法在图像分类方面做得相当出色。但是,我们是否能在视频分类或动作识别任务能取得相同的进步 ?


1571165582409751.png


实际上,有许多行为将动作识别变成一项更具挑战性的任务。这包括巨大的计算成本、捕获长上下文,当然还有对良好数据集的需求。

一个好的动作识别问题数据集应具有与 ImageNet 相媲美的帧数和动作类型的多样性,以便将经过训练的体系结构概括为许多不同的任务。


幸运的是,去年提出了几个这样的数据集。让我们来看看。


Kinetics-600

视频数量:500000    动作类别:600   年份:2018

1540275307995541.png

Kinetics-600数据集实例


我们从 Google DeepMind 团队的数据集开始。这是一个 Kinetics 数据集 - 为推进人类动作识别模型而创建的 YouTube URL 的大规模高质量数据集。其最后一个版本名为 Kinetics-600,包括大约 500000 个视频片段,涵盖 600 个人类动作类,每个动作类至少有 600 个视频片段。


Kinetics-600 中的每个片段均取自的YouTube 视频,持续约 10 秒,并标有单个类。片段已经经历了多轮的人为注释,为标记任务构建了单页 Web 应用程序,您可以看到下面的标签界面。


1540275306217379.png

标签界面


如果一个工作人员对最开始问题"你能识别这个人所做动作的类别吗?”回答是“是”的话,他还需要回答“动作持续到最后一帧吗?”
Kinetics-600 的创建者们还检查了数据集是否类别均衡,
发现大约 15% 的动作类不平衡,但这不会导致性能上的偏差。


这些动作涵盖了广泛的类别,包括人与物体的互动,如演奏乐器,安排鲜花,修剪草坪,打蛋等。
时间时刻


Moments in Time


视频数量: 1000000     动作类别: 339     年份: 2018

1540275308716565.png

来自 Moments in Time 数据集的样本


Moments in Time  是另一个由 MIT-IBM 沃森人工智能实验室开发的大规模的数据集,它收集了100万个标记为3秒的视频,不仅限于人类行为,还包括人、动物、物体和自然现象,捕捉动态场景的要点。 


上述所有场景都属于同一类别的“打开”,尽管它们在视觉上看起来非常不同。因此,正如研究人员所指出的,挑战在于开发深度学习算法,既能区分不同的操作,又能推广到同一操作中的其他代理和设置。  


尽管上述的“打开”在视觉上差异很大,但对人类来说还是很好区分的,所以研究员指出,难点在于开发既能够区分不同类别的行为,还能区分同一种行为的不同表现的深度学习算法。


Moments in Time 数据集的行为分类包含了英语中最常用的动词,涵盖了广泛而多样的语义空间。因此,数据集中有339个不同的动作,平均每个类有1757个带标签的视频;每个视频只有一个动作。


1540275305218008.png

标签界面


从图像中可以看出,注释过程非常简单:如果场景中发生动作,则向工作人员显示视频动词对,并被要求按"是"或"否"键响应。对于训练集,研究人员通过注释运行每个视频至少3次,并且需要至少75%的人类共识。对于验证和测试集,他们将最少的批注数增加到 4,人类共识至少为 85%。


SLAC


视频数量:520,000,1.74M个2s的视频片段      动作类别:200     年份:2017

1540275305638498.png

数据收集流程


麻省理工学院和Facebook的研究人员小组介绍了一个稀疏标记的ACTIONs数据集(SLAC)。该数据集侧重于人类行为,类似于 Kinetics,包括从 YouTube 检索到的 520K 多个未修剪视频,平均长度为 2.6 分钟。采用新颖的主动采样方法从视频中以2 秒为单位机芯剪辑和采样。这产生了 1.75M视频片段,包括 755K 阳性样本和 993K 阴性样本,由 70 个专业标注团队进行批过。


如您所见,此数据集的显著特征是存在负样本,如下图所示。

1540275305999423.png

 SLAC 数据集的负样本


数据集包括从 ActivityNet 数据集获取的 200 个动作类。

请注意,即使此数据集的论文于 2017 年 12 月发布,该数据集仍无法下载,希望之后能够提供下载。


VLOG


视频数量:11400     年份:2017   

1540275306332084.png

VLOG数据集的实例


VLOG数据集与以前的数据集在收集方式上有所不同。数据集的传统方法从列一个列表开始,然后搜索带有相应标签的视频。


然而,这种方法具有一定的局限,因为日常活动的视频是不太可能在互联网上出现并被标记。你能想象自己会上传和标记自己打开微波炉,打开冰箱,或起床的视频吗?人们更倾向于标记不寻常的东西,例如,在游泳池里跳,呈现天气,或玩竖琴。因此,可用数据集通常不平衡,包含异常事件,日常活动数据较少的这种情况较多。


为了解决这个问题,加利福尼亚大学的研究人员建议从我们实际需要的数据集开始,即交互丰富的视频数据,然后在动作发生后对其进行说明和分析。他们开始从生活方式VLOGs收集数据,VLOGs是一种非常受欢迎的视频类型,人们公开上传到YouTube,记录他们的生活。


1540275306240785.png

数据收集过程 


由于数据是隐式收集的,因此注释起来具有一定的挑战。研究人员决定关注交互的关键部分、手,以及它们如何在帧级别与语义对象交互。因此,此数据集还可以在理解手部动作的难题上取得进展。


最后


动作识别问题需要大量的计算成本和大量的数据。幸运的是,去年出现了几个非常好的数据集。与以前可用的基准(ActivityNetUCF101HMDB)一起,为显著改进动作识别系统的性能奠定了坚实基础。

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:一个简单的数学模型向你揭示人类视觉的秘密

下一篇:使用iPhone相机和openCV来完成3D重建(第一部分)

用户评价
全部评价

热门资源

  • 应用笔画宽度变换...

    应用背景:是盲人辅助系统,城市环境中的机器导航...

  • GAN之根据文本描述...

    一些比较好玩的任务也就应运而生,比如图像修复、...

  • 端到端语音识别时...

    从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...

  • 人体姿态估计的过...

    人体姿态估计是计算机视觉中一个很基础的问题。从...

  • 谷歌发布TyDi QA语...

    为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi...