资源技术动态计算机视觉、视觉SLAM 与 智能体

计算机视觉、视觉SLAM 与 智能体

2020-02-19 | |  123 |   0

原标题: 计算机视觉、视觉SLAM 与 智能体

来源:AI 研习社    链接:https://www.yanxishe.com/TextTranslation/2262


近来,随着端到端深度学习的进展,我们可以训练AI来执行很多不同的任务(仿真任务或者是真实世界的任务)。端到端学习能够用一个单个的学习网络来取代多组件的、手工设计的系统,这样的网络能够处理原始传感器数据并且输出供AI在物理世界中采取的动作。接下来会讨论上述这些概念的含义,重点介绍有关视觉SLAM深度学习的新研究趋势,并且对将来需要用到的空间推理算法的种类做出一些预测。

01.png

计算机视觉 VS 智能体

在这篇文章中,我们会围绕以下三个方面展开讨论:

1)计算机视觉对于动作要素重要吗?

2)智能体的视觉SLAM

3)视觉SLAM的未来在何处?预测未来趋势和研究方向


一、计算机视觉对于动作要素至关重要吗?


在上个月的ICCV会议中,笔者听到了这样一个引人深思的问题:

智能体需要从计算机视觉中获取什么?

这个问题是来自英特尔研究院Vladlen Koltun在韩国首尔举办的ICCV2019的视觉SLAM深度学习的workshop研习会的演讲中提出的。他谈到了关于在有无计算机视觉结合的条件下,构建智能体来指导表示学习的问题。当他在研究传统的视觉SLAM时(参见 Direct Sparse Odometry (DSO) system [2]), Koltun 决定不在这个研习会上去讲他曾经关于计算机几何学,图像对齐或3D点云处理的工作。他的演讲包括跨越他团队的几篇研究论文的许多想法,其中一些非常幽默(参见他的演讲视频),以及许多他对于通用人工智能的哲学观点。


最新技术表明,无需任何的中间计算机视觉处理(例如对象识别,深度估计和图像分割),就可以直接从像素信息(原始输入)来学习动作要素(真正想要的输出)。但这仅仅是因为可以在没有中间表示的情况下解决某些AI任务(即计算机视觉的处理),这是否意味着我们应该放弃计算机视觉研究,让端到端学习处理所有事情?可能不会。


让我们从一个非常实用的角度来提出下面的问题:

“与训练时没有中间表示的智能体相比,结合了计算机视觉的智能体是否会有更强的鲁棒性?”

Koltun实验室最新的研究表明:答案是肯定的。在每帧计算机视觉任务的监督下进行的具有中间表示形式的训练,将产生更强大的智能体,这些AI在各种性能任务中学习得更快,更鲁棒!自然而然地,下一个问题是:哪些计算机视觉任务对于代理的鲁棒性最重要? Koltun的研究表明,深度估计是一项特殊任务,当训练需要在空间中移动的智能体(即大多数视频游戏)时,它可以很好地用作辅助任务。因为深度估计是当今许多RGBD Visual SLAM系统的关键组成部分,深度估计网络应该可以帮助智能体在未知环境中导航。了解Koltun的论文“Does Computer Vision Matter for Action? ”的最好方法是在YouTube上观看视频。

Koltun的“Does Computer Vision Matter for Action?”的视频描述[3]

让我们想象一下,根据大规模地训练智能体,从现在开始到2025年,你有时想将机器人部署到世界上,并且你正在辩论是否应该避免中间表示。


中间表示有助于解释性,可调试性和测试。当系统在现实世界中需要空间推理功能时,可解释性是成功的关键。如果你的智能体表现不佳,应该查看它的中间表示处理。如果要改善AI,可以分析计算机视觉系统从而阿里更好地确定数据收集工作的优先级。可视化应该在深度学习工具箱中处于非常高的位置。


但是,当今的计算机视觉生态系统提供的不仅是处理单个图像的算法。 Visual SLAM系统可以在更新相机轨迹和更新3D世界地图的同时快速处理图像。 Visual SLAM(或VSLAM)算法作为动态结构(SfM)的实时变体已经存在了一段时间。SfM使用捆绑包调整,即一种最小化重投影误差,通常是使用莱文贝格-马夸特方法(Levenberg Marquardt)解决。如果你今天看到(2019年)到处走动的任何类型的机器人,则可能运行的是SLAM的某种变体(本地化或制图方面),而不是端到端训练有素的网络-至少今天没有。那么Visual SLAM对于智能体意味着什么?

二、适用于AI代理的Visual SLAM

尽管没有一种单一的每帧计算机视觉算法足以在环境中采取强大的动作,但还是可以使用一类实时计算机视觉系统(例如Visual SLAM)来指导特工穿越太空。 ICCV 2019上的Visual SLAM深度学习研讨会展示了各种不同的Visual SLAM方法,并包括一个讨论面板。 研讨会的主题包括关于移动平台上的Visual SLAM(来自6d.aiVictor Prisacariu),自动驾驶汽车(来自TUM的Daniel CremersArtiSense.ai),高细节室内建模(来自TUM的Angela Dai),AI Agents(来自Vdlen Koltun的演讲)。 英特尔研究院)和混合现实技术(来自Magic Leap的Tomasz Malisiewicz)。


02.png

Ronnie Clark的第二届Visual SLAM深度学习研讨会的预告片。
http://visualslam.ai上查看信息

关于空间感知能力,Koltun的讲话明确表明,作为计算机视觉研究人员,我们可以大胆思考。 AI代理需要一系列空间感知功能,这些空间感知功能仅与传统的Visual SLAM有所重叠(无论是否基于深度学习)。

Koltun的工作赞成使用基于计算机视觉的中间表示来产生更强大的AI代理。但是,Koltun不认为针对AI代理需要解决当前定义的6dof Visual SLAM。让我们考虑一下普通的人类任务,例如走路,洗手和用牙线剔牙-每个任务都需要不同数量的空间推理能力。可以合理地假设AI代理将需要不同程度的空间定位和映射功能来执行此类任务。

像增强现实系统中使用的技术一样,Visual SLAM技术可以构建环境的公制3D地图,以完成数字内容的高精度放置任务-但是此类高精度系统可能永远不会直接在AI代理内部使用。手持(增强现实)或头戴式(混合现实)相机时,人决定移动的位置。 AI代理必须做出自己的移动决策,这不仅需要功能对应和捆绑调整,还需要计算机视觉范围内的内容。

在头戴式显示器内,您可能会看到距离您30英尺的数字内容,并且要使所有内容都在几何上正确无误,您必须拥有一张不错的3D世界地图(跨度至少30英尺),并对您的图像进行合理的估算姿势但是对于AI代理需要执行的许多任务而言,并不需要度量标准级别的遥远几何图形表示。就像采取适当的措施一样,需要局部的高质量度量标准地图,以及一些较粗糙的地图,例如用于大范围地图的拓扑图。 Visual SLAM系统(基于立体声和基于深度传感器)很可能会在工业中找到大量应用,例如混合现实和一些机器人技术部门,其中毫米级精度至关重要。

针对AI代理的更一般的端到端学习将向我们展示从数据自动学习的新型空间智能。要回答以下问题,有许多令人兴奋的研究要做:我们可以训练Visual AI Agent进行什么样的任务,从而产生地图构建和定位功能?或我们可以预先构建哪种类型的核心空间推理功能,以从3D世界中进一步进行自我监督学习?

三, 可以使用Visual SLAM吗? 趋势与研究预测

在Visual SLAM的深度学习研讨会上,小组中提出了一个有趣的问题,重点是Visual SLAM中方法的融合。 或者,


“一个Visual SLAM框架会统治所有这些吗?”

应用研究的世界正在朝着更深入的学习方向发展-到2019年,计算机视觉中的许多关键任务都以某种形式(卷积/图)神经网络存在。我不相信我们会看到一个单一的SLAM框架/范例在所有其他框架中占主导地位-我认为我们会看到多个基于可互换的深度学习组件的Visual SLAM系统。新一代基于深度学习的组件将允许端到端学习的更多创造性应用,并且通常可用作其他实际系统中的模块。我们应该创建工具,使其他人可以制作更好的工具。

PyTorch使得构建Kornia之类的多视图几何工具变得容易-这样一来,计算机视觉的正确部分就以一等公民的身份直接带入当今的深度学习生态系统。 PyTorch赢得了研究界的青睐。从2017年到2019年,使用率急剧增加,PyTorch现在是我大多数研究人员中推荐的框架。

要查看视觉SLAM的端到端深度学习的最终目标可能是什么样子,请看一下Krishna Murthy博士的gradSLAM。 MILA的学生,以及CMU的合作者。他们的论文提供了一种由可区分的块组成的SLAM思维新方法。摘自文章“密集的SLAM与计算图的融合使我们能够将3D地图反向传播到2D像素,从而为SLAM的基于梯度的学习开辟了新的可能性。”

03.png

gradSLAM论文中关于SLAM端到端学习的关键人物。 [5]


在Deep Visual SLAM上下文中似乎正在上升的另一个关键趋势是自我监督学习。 我们看到越来越多的自我监督学习在多视图问题上取得了实际的成功,其中几何使我们摆脱了强有力的监督。 甚至我和我的团队在Magic Leap开发的基于ConvNet的点检测器SuperPoint [7],都使用自我监督来训练更强大的兴趣点检测器。 在我们的案例中,不可能在图像上获得真实的兴趣点,而自贴标签是唯一的出路。 我最喜欢的从事自我监督技术的研究人员之一是TRI的Adrien Gaidon,他研究了如何将这些方法用于制造更智能的汽车。 Adrien在其他与自动驾驶汽车有关的ICCV 2019研讨会上进行了精彩的演讲,他的工作与Visual SLAM密切相关,对从事类似问题的任何人都非常有用。

Adrien Gaidon关于自监督学习在自动驾驶汽车方面的演讲,于2019.10.11


这是来自于Alyosha Efros在这个主题上的另一个精彩演讲。他的出色工作说服了你为什么应该喜欢自监督学习。


Alyosha Efros 在2018年5月25日关于自监督学习的展示


结论

随着越来越多的空间推理技术逐渐融入深层网络,我们必须面对两个相反的力量。一方面,指定内部表示形式使其很难扩展到新任务上-更容易诱使深层网络来为你完成所有艰难的工作。另一方面,当我们将智能体部署到现实世界中时,我们需要可解释性和一定程度的安全性,因此一些中间任务(例如目标识别)可能会涉及当今的空间感知方法。multi-agents from OpenAI [6]正在进行许多激动人心的工作,但是完整的端到端学习不会很快应用于现实世界的机器人(如自动驾驶汽车)。


OpenAI showing Multi-Agent Hide and Seek. [6]


更实用的Visual SLAM研究将集中在可区分的高级块上。随着在Visual SLAM中更多的深度学习的出现,由于共享整个SLAM系统就像共享CNN一样容易,因此它将在Visual SLAM中引起复兴。我等不及下面这条命令的出现:

pip install DeepSLAM

希望你能喜欢学习有关Visual SLAM的不同方法的知识,并且希望我发现我的博客文章富有洞见和教育意义。直到下一篇文章的出现!

参考文献:

[1]. Vladlen Koltun. 英特尔智能系统首席科学家。 http://vladlen.info/

[2]. Direct Sparse Odometry. Jakob Engel, Vladlen Koltun, and Daniel Cremers.IEEE关于模式分析和机器智能的交易,40(3), 2018. http://vladlen.info/publications/direct-sparse-odometry/

[3]. 计算机视觉是否适合采取行动?Brady Zhou, Philipp Krähenbühl, and Vladlen Koltun. Science Robotics, 4(30), 2019. http://vladlen.info/publications/computer-vision-matter-action/

[4]. Kornia: PyTorch的开源可区分计算机视觉库。 Edgar Riba, Dmytro Mishkin, Daniel Ponsa, Ethan Rublee, and Gary Bradski. 冬季计算机视觉应用大会,2019. https://kornia.github.io/

[5]. gradSLAM:密集SLAM满足自动区分.。Krishna Murthy J., Ganesh Iyer, and Liam Paull. In arXiv, 2019. http://montrealrobotics.ca/gradSLAM/

[6] 多代理自动课程中的紧急工具使用。Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, and Igor Mordatch. In arXiv 2019. https://openai.com/blog/emergent-tool-use/[7] SuperPoint: 自我监督的兴趣点检测和描述。 Daniel DeTone, Tomasz Malisiewicz, and Andrew Rabinovich. IEEE计算机视觉和模式识别研讨会会议记录。2018. https://arxiv.org/abs/1712.07629


Posted by Tomasz Malisiewicz at Tuesday, November 19, 2019 

———————————————

发起:唐里 校对:唐里 审核:鸢尾

参与翻译(3人):Ophria、科林•鲍尔、gyc_beauty

英文原文:Computer Vision and Visual SLAM vs. AI Agents

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:今日 Paper | 小样本学习;机器学习;单幅图像去雾 ;零样本目标检测等

下一篇:图卷积网络(GCN)情感识别

用户评价
全部评价

热门资源

  • 应用笔画宽度变换...

    应用背景:是盲人辅助系统,城市环境中的机器导航...

  • GAN之根据文本描述...

    一些比较好玩的任务也就应运而生,比如图像修复、...

  • 端到端语音识别时...

    从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...

  • 人体姿态估计的过...

    人体姿态估计是计算机视觉中一个很基础的问题。从...

  • 谷歌发布TyDi QA语...

    为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi...