资源行业动态AI 的世界“太小了”——对 AI 研究方向过度集中问题的反思

AI 的世界“太小了”——对 AI 研究方向过度集中问题的反思

2020-01-10 | |  69 |   0

原标题:AI 的世界“太小了”——对 AI 研究方向过度集中问题的反思

来源:AI 研习社        链接:https://www.yanxishe.com/TextTranslation/2307


在过去的八年中,我作为人工智能(AI)社区的内部人员,为不同的公司、在各种职位工作。在DeepTrait,我们专注于遗传分析和工程学的AI应用程序,我从非常不同的角度看同一个AI社区。在这里,我从内部和外部两个角度传达我对AI的看法。


AlexNet在2012年ImageNet竞赛中的成功,预示了神经网络的重生以及该领域全新的开始。我在2011年开始接触机器学习(ML),就在它开始流行之前,并见证了这些年来的增长。 ICML 2013是最高级的ML会议之一,是在乔治亚州亚特兰大的一家酒店举行的一个安静的聚会,有数百名与会者。在2018年,同一会议是在瑞典斯德哥尔摩举行的大型活动,来自世界各地的五千名与会者参加了会议。在2019年12月,有关该主题的最大型会议NeurIPS惊人的聚集了一万三千名AI研究人员和工程师。

1578652150264495.png

图1. AI Index 2019在大型会议上的出席情况


随着资金和参与人员的增长,机器学习的研究蓬勃发展。由于历史原因,几乎所有AI论文都是免费的,可以在arXiv上访问。如今,那里已发表了六万多篇AI论文,并且自2012年以来呈指数级增长(图2)。

1578652178449916.png

图2. AI Index 2019中不同子类别在arXiv上发布的AI论文数量


2013年,一位坚定的行业AI专家可能会熟悉其子领域中的所有出版物。在2019年,这将是不可能的。如今,行业中的绝大多数AI工程师都依赖“最佳论文”和其他入围名单。


在如此受欢迎且迅速发展的领域中工作,给人的印象是AI无处不在。如果您需要神经网络来进行对象识别-没问题,只需看一看图像识别的最新技术,然后选择适合您要求的体系结构即可。如果您需要进行情感分析(同一个故事),只需浏览有关此问题的出版物,然后选择适用于您的数据,硬件和所需性能的解决方案。即使不存在针对您的特定问题的现有出版物或相关解决方案,它也涉及“子问题的子问题”。


例如,标准扩充技术无法为您的数据集产生理想的结果。或者,您最喜欢的神经网络的架构在收集的数据方面表现不佳。否则,最佳的词嵌入技术无法与您的任务的特定词汇一起使用等等。


多年以来,认识到这些子问题的子问题上的经验会使人产生这样的印象:即AI的所有大问题都已得到解决。越来越多的针对不断缩小的领域的已发表论文加强了这种印象。


自然,当我们开始使用DeepTrait开发用于基因组分析的AI系统时,我们探索了现有文献。我们认为,必须在深度学习中详细探讨所有内容,更不用说异构数据分析中的各种相关问题了。如今,基因组分析已成为人类研究中最有前途和至关重要的领域之一,并且在该领域的生命周期中已发表了6万多篇AI论文。现在已经完成了很多工作吗?


错。在2019年12月12日访问arXiv并输入“深度学习”后,共有22,140篇论文。现在,将查询更改为“深度学习基因组”,您将只发现76个,其中许多论文中并未提到解决基因组数据,但提到基因组是潜在的,未来的或相关的应用程序。


在所有其他来源(包括bioRxiv)中搜索了有关基因组学的所有深度学习论文后,我们发现有200多个。他们中的绝大多数使用了过时的神经网络架构和训练技术。他们中的很大一部分不正确地使用了这些工具,例如,将卷积神经网络应用于异构数据(例如SNP)。这导致了模型表现不佳-而任何AI专家都可以轻松预测的模型。我们发现这是重复的模式。


那些正确使用AI工具的人这样做是为了分析基因组的较小子序列,例如启动子或蛋白质结合位点。他们的输入数据最长为一到两万个核苷酸。拟南芥基因组中没有接近1.35亿个核苷酸的核苷酸,这是我们在首次重大测试中所针对的核苷酸。我们没有什么可以建立的,没有示例,没有神经网络架构,也没有针对这种大小序列的训练技术。没事!我们必须从头开始。


大家都到哪步了?

我很好奇。对基因组的深入了解有着巨大潜力。高通量测序会产生大量数据,而人工智能似乎是分析这些数据的必然工具。尽管如此,从论文的比例来看,基因组学仅得到了人工智能研究大约1%的关注。剩下的99%在哪里?这显然是一个机会。如果这样一个成熟的机会都被忽视,也许还有更多案例。


我回到了arXiv试图寻找其他潜在的革命性人工智能应用。例如,现代天文学产生了大量高度可变的数据。图像数据、无线电频率、天空每一部分的标注天体等等。还有可能改变我们对宇宙认识的重大问题,比如“什么是暗物质?”。还有我们自己,比如著名的恩里科·费米的《大家在哪里?》。利用人工智能的力量来探索我们宇宙的综合天文数据以解决这些关键的谜题应该是一个水到渠成的想法,对吧?  


尽管如此,一个名为“深度学习暗物质”的arXiv查询今天仅会给出20个结果。  


下一个什么?材料科学呢?现代的强化学习模型可以在围棋和星际争霸2中击败最优秀的人类玩家。这些模型如此之好,以至于AlphaGo的胜利成为了《自然》杂志的精选。最近,世界上最好的围棋选手李世石(Lee Sedol)退役了,他说“人工智能无法被击败”。  


这应该很鼓舞人心,对吧?所以我们为什么不把同样的方法应用到材料科学上呢?人类已经知道很多关于物理和化学的知识。我们可以建立一个模拟器,让强化学习可以自己学习如何创建新材料,比如石墨烯。这些新材料可以使新的飞机和轮船设计、太空升降机、水下工作站,甚至可能成为外星人类的殖民地成为可能。这应该是一个令人兴奋的问题。


然而,以“深度学习晶体结构”有关的论文在arXiv上仅有16篇。


小世界

事实证明,实际中所有的现代人工智能研究和产业应用都聚焦于两个子领域的各种技术问题:计算机视觉和自然语言处理(图3)

1578652227396868.png

图3 人工智能创新的倒金字塔


我们可以将人工智能建模为倒金字塔。每一个低层级为高层级赋能,从某种程度上来说,低层级塑造并定义了高层级。


底层是具有深度的、基础的科学和技术,用来进行理论层面的理解,包含神经网络、优化算法、统计概率以及这些工具的概率特性。


中间层是技术问题层,这里蕴含了我之前提到的一些技术子问题。对于计算机视觉,中间层涉及图像识别、图像分割和图像生成。对于自然语言处理,中间层涉及解析、文本分类、机器翻译和问答。后者在数据集  General Language Understanding Evaluation (GLUE)上有很好的表现。


大多数研究员和行业专家都致力于研究这个层级。当然,他们不是所有人都聚焦在自然语言处理任务或视觉工作。如果你是例外,可能完全有理由反对我的观点。然而,如果你从事这两项工作中任一,你都可以想象有多少人处于这个层级,解决这两项任务或它们的变形和组合外的工作。


中间层的限制来自于底层理论科学。底层任意新概念的产生,都会造成技术问题层的一系列新动作,比如梯度下降、记忆单元或者卷积核。


如同理论科学的进步会带来技术爆发一样,解决一个技术问题就可以推动金字塔顶端的产业应用的发展。


这个模型展示了业界的本质约束:将产品思想从技术层推到产业应用层相对简单,而反过来,可以轻易证明是不可能实现的。可以将应用流程看成一组单向箭头。如果我们所有人都拥有许多技术层的计算机视觉和自然语言处理工具,大部分产业应用都不可能实现。事实上,大部分确实如此。一个致力于人工智能的专家,她从事人工智能是想要设计产业应用,也可能希望在技术问题层上结束研究,但实际上可能会带来更宽泛、更令人振奋的结果。

  

走进 AI

技术问题和产业化实践的当前状态,是一条本末倒置的路径,从倒三角外的应用到现有技术层的工具,几乎无法实现。现有的工具包是为计算机视觉和自然语言处理问题量身打造的,而且越高级的工具,其应用范围越窄。


数据大小就是一个例子。比如,在植物基因组学中,拟南芥有1.35亿个“字母”基因组。 如果按照标准尺寸,将这些数据存入数据卷,那么拟南芥基因组每个数据点就要占用150卷。这还只是开始,番茄基因组包含9.5亿个“字母”文本等价于1,055卷数据,大麦有53亿个“字母”等价于5,888卷数据,小麦有170亿个“字母”等价于18,888卷数据。目前没有一种自然语言处理方法可以解决这种量级的数据。现在所有用于自然语言处理的深度学习工具,只能处理上千位长度的序列,比如变换网络。


另一个例子就是数据特性。基因组由四种核苷酸组成,分别用“字母”A、C、T、G 表示。核苷酸不能“稍微多几个T”或者“稍微少几个T”,此外,比如把一个 T 写成了 A 都会造成完全不同的表现型、致命疾病或致死情况。这就限制了计算机视觉技术对连续型数据的应用。同时还要考虑数据大小的问题:人类基因可以表示为一张四通道“图像”,其分辨率为 54,772 * 54,772“像素”,远远超出当前计算机视觉神经网络处理的范围。


基因数据的特性和大小,让列表中当前经典的深度学习技术工具无能无力。计算机视觉或自然语言处理里没有现成的神经网络架构或训练经验可以借鉴来解决我们的问题。


快速预览表明,天文学、化学、材料科学都是数据丰富的应用,也面临着同样的局面:无法使用现有的 AI 工具包,这些工具包都是来自小数据集的计算机视觉和自然语言处理的解决方案。有几种常见的解决方法,比如将十六进制数据转化为图像,然后对图像进行缩放,将缩放后的图像作为计算机视觉工具的输入,但这样也是无济于事。


至此,那些致力于找到解决方法的人,除了下沉至人工智能的更深层级——理论层,别无选择。AI 生态系统的底层提供许多发现,这些发现关于深度神经网络如何工作、不同架构如何影响其表现、不同激活函数如何与特定数据分布关联等等。也就是说,现有的工具可以让创造你创造自己的工具箱,来适应你关注的行业应用。


这是一个艰难的过程,需要时间、深厚的专业知识、奉献精神和一丝运气。但最终,你会开创 AI 生态系统全新的技术问题层级。即使是为特定行业应用创造,这个最新的工具集也能带来其他功能的实现,就像解决了图像识别,就为从放射学分析到特斯拉自动驾驶仪等自动驾驶系统的大量产品和产品原型开辟了道路。

1578652265860873.png

图4 新技术问题层使一系列新的工业应用成为可能 


蓝海

从事计算机视觉和自然语言处理的技术问题解决,是一条保险、可预测和安全的道路。大量的研究团队、创业公司和成熟企业都涉足这两领域。最大的企业在加入其 AI 团队的研究员大学毕业时,为其提供一笔资金。专注于计算机视觉和自然语言处理的企业也保证你可以使用优质的机器学习工具:数据集、 GPU 技术和含大量开源资源库的框架,资源包含示例、库、标准测试和其他有用资源。这些减少了我们的工作量、提升工作效率。或许,这就解释了为何这两个领域聚集了大量 AI 人才。


另一方面,对用于天文学、遗传学、化学、材料科学、地理科学或经济学  AI 工具箱的追求,是一个挑战,是一段有时会令人沮丧、感到孤独的过程,这个过程只能依赖你自己和团队。而战胜这个挑战,赋予你的是整个人工智能领域里足够大,大到可以创办另一个十亿美元级公司或一整个研究机构的奖励。


现在,人类面临着成百上千个至关重要却尚未解决的问题。对于大多数问题,勇敢的先驱研究员们收集了当下无法分析的更多的数据。他们的目标很简单,收集数据,继续研究。这些数据就在这,以开源的形式保存,等待有人去发现它们,有时候会花上几年。问题里大部分依然无法解决,因为它们已经被证实是不可能明确解决的。然而人工智能技术正是以此著称,因为它能够学习如何解决确切问题。


远离人群热潮,还有整个被人工智能社区忽视的天地,数十年等待着开创者的降临。这片天地未被开发和勘探,它们将所有的宝藏献给追逐至 AI 尽头的勇士。

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:给 Python 新手的 Python 3.8 六大新特性介绍

下一篇:2020 年 AI 趋势摘要:可嵌入、可迁移、可评价

用户评价
全部评价

热门资源

  • 国内人才报告:机...

    近日,BOSS 直聘职业科学实验室 &BOSS 直聘研究院...

  • AI使物联网更智能...

    看到微软对物联网和人工智能的结合感兴趣是一个明...

  • 推荐一批学习自然...

    这里推荐一批学习自然语言处理相关的书籍,当然,...

  • 机器学习中的线性...

    机器学习中的线性回归是一种来源于经典统计学的有...

  • 基于Spark的数据分...

    Spark是在借鉴了MapReduce之上发展而来的,继承了...