资源技术动态一个简单的数学模型向你揭示人类视觉的秘密

一个简单的数学模型向你揭示人类视觉的秘密

2019-10-16 | |  111 |   0

原标题:一个简单的数学模型向你揭示人类视觉的秘密

来源:AI研习社       链接:https://www.yanxishe.com/TextTranslation/2082


来自眼睛的信息在到达大脑的视觉皮层之前就通过了一个瓶颈,大脑的视觉皮层对稀疏的信号进行了大量的处理。


这是人类视觉的一大奥秘:生动的世界画面出现在我们的大脑眼前,而大脑的视觉系统却很少从世界本身接收信息。我们“看到”的很多东西都在我们的头脑中变戏法。


1571164980583225.jpg

纽约大学的数学家赖圣英说:“很多你认为你看到的事实上是在弥补的事情。”“你实际上看不到它们。”


然而,大脑在创造视觉世界方面一定做得很好,因为我们通常不会撞到门上。不幸的是,仅仅研究解剖学并不能揭示大脑是如何制造出这些图像的,而不仅仅是盯着汽车引擎看,这会让你破译热力学定律。


新的研究表明数学是关键。在过去的几年里,杨一直在与纽约大学的同事,神经科学家罗伯特沙普利和数学家洛根查理克进行一次不太可能的合作。他们正在创建一个单一的数学模型,结合多年的生物实验,解释大脑如何根据有限的视觉信息,产生世界的精细视觉复制。


杨说:“我认为,理论家的工作就是把这些事实综合起来,形成一幅连贯的图景。”“实验者不能告诉你什么东西起作用。”


杨和她的合作者一直在通过一次合并一个基本的视觉元素来构建他们的模型。他们解释了视觉皮层中的神经元如何相互作用来检测物体的边缘和对比度的变化,现在他们正在努力解释大脑如何感知物体移动的方向。


他们的工作是同类工作中的第一项。先前的人类视觉模型研究对视觉皮层的结构做了一厢情愿的假设。杨、沙普利和查理克的作品接受了视觉皮层的严格的、非直觉的生物学原理,并试图解释视觉现象仍然是可能的。


“我认为他们的模型是一个改进,因为它建立在真正的大脑解剖学基础上,他们想要一个生物学上正确或可信的模型,”犹他大学的神经科学家亚历山德拉·安吉鲁奇说。


层和层


我们对视力有一些了解。


眼睛起透镜的作用。它接收来自外部世界的光,并将我们视野的比例复制品投射到位于眼睛后部的视网膜上。视网膜与视皮层相连,视皮层是大脑后部的一部分。


然而,视网膜和视觉皮层之间的联系很小。对于一个大约是满月四分之一大小的视觉区域,只有大约10个神经细胞连接视网膜和视觉皮层。这些细胞构成了LGN,也就是外侧膝曲核,这是视觉信息从外部世界进入大脑的唯一途径。


LGN细胞不仅稀缺,而且也不能发挥多大作用。当LGN细胞检测到视野中很小的区域由暗变亮时,就会向视觉皮层发送一个脉冲,反之亦然。就这些。光照世界用数据轰击视网膜,但大脑所要做的只是一小部分LGN细胞微弱的信号。基于如此之少的信息来看待世界,就像试图从餐巾纸上的笔记中重建白鲸迪克。


杨说:“你可能认为大脑是在你的视野中拍摄你所看到的东西。”但大脑不拍照,视网膜拍照,从视网膜到视皮层的信息很稀少。


但随后视觉皮层开始工作。虽然皮层和视网膜由相对较少的神经元相连,但皮层本身却密布着神经细胞。每10个LGN神经元从视网膜蛇行回来,在视觉皮层的初始“输入层”中就有4000个神经元,而在其余部分则更多。这种差异表明大脑对接收到的少量视觉数据进行了大量的处理。

夏普利说:“视觉皮层有自己的大脑。”


对于像扬、沙普利和查理克这样的研究人员来说,挑战在于如何解读他们的想法。


可视循环


视觉的神经解剖学令人兴奋,它就像一个瘦小的人举起一个巨大的物体,那么:它是如何用这么小的身体做这么多的事情的?

杨、沙普利和查理克并不是第一个尝试用数学模型来回答这个问题的人。但之前所有的研究都假设,更多的信息在视网膜和皮层之间传递,这一假设将使视觉皮层对刺激的反应更容易解释。


夏普利说:“人们没有认真对待计算模型中生物学相关的东西。”


从台球运动到时空演化,数学家在模拟变化现象方面有着悠久而成功的历史。这些是“动力系统”的例子,即根据固定规则随时间发展的系统。大脑中神经元之间的相互作用也是一个动态系统的例子,尽管这个系统在一系列可定义的规则中特别微妙且难以确定。


LGN细胞向大脑皮层发送一系列电脉冲,其强度为十分之一伏特,持续时间为1毫秒,引发了一系列神经元相互作用。杨说,控制这些相互作用的规则比控制更熟悉物理系统中相互作用的规则“极其复杂”。


单个神经元同时接收来自数百个其他神经元的信号,其中一些信号鼓励神经元放电,另外一些则抑制它。当一个神经元从这些兴奋性和抑制性神经元接收电脉冲时,其膜上的电压产生波动。它只有在电压(它的“膜电位”)超过某个阈值时才会触发,几乎不可能预测什么时候会发生这种情况。


杨说:“观察单个神经元的膜电位,可以发现它会上下剧烈波动。”“没办法确切地知道它什么时候会触发。”


情况比这还要复杂。那几百个神经元与你的单个神经元相连?每一个神经元都接收来自其他数百个神经元的信号。视觉皮层是一个一个接一个的反馈回路的旋转运动。


“这件事的问题是有很多运动部件。沙普利说:“这才是困难的原因。”


早期的视觉皮层模型忽略了这一特征。他们假设信息只通过一种方式流动:从眼睛前部到视网膜,再到大脑皮层,直到最后出现视觉,就像传送带上的小部件一样整洁。这些“前馈”模型更容易创建,但他们忽略了大脑皮层解剖结构的简单含义,这意味着“反馈”回路必须成为故事的重要部分。


杨说:“反馈回路真的很难处理,因为信息不断地回来改变你,它不断地回来影响你。”“这是几乎没有模型能处理的事情,它在大脑中无处不在。”


在他们最初的2016年论文中,扬、沙普利和查理克开始认真对待这些反馈循环。他们的模型的反馈回路引入了类似蝴蝶效应的东西:来自LGN的信号的微小变化在一个接一个的反馈回路中被放大,这一过程被称为“反复激励”,导致视觉表现形式的巨大变化。最终被模型所降低。


Young、Shapley和Chariker证明,他们的反馈丰富的模型能够根据进入模型的弱LGN输入的微小变化,从垂直到水平复制物体边缘的方向以及两者之间的一切。


安吉鲁奇说:“(他们的研究表明)在视觉世界中,只要几个神经元与其他神经元相连,就可以产生所有的方向。”


然而,视觉远不止边缘检测,2016年的论文只是一个开始。下一个挑战是将额外的视觉元素合并到他们的模型中,而不丢失他们已经发现的一个元素。


杨说:“如果一个模型做得对,同一个模型应该能够一起做不同的事情。”“你的大脑还是一样的,但是如果我告诉你不同的情况,你可以做不同的事情。”


成群的视觉


在实验室实验中,研究人员向灵长类动物展示了简单的视觉刺激黑白模式,这些模式在对比度或进入灵长类动物视野的方向上有所不同。研究人员利用与灵长类视觉皮质相连的电极,追踪刺激产生的神经脉冲。一个好的模型应该在同样的刺激下复制相同类型的脉冲。


杨说:“你知道,如果你给(灵长类动物)看一张照片,那么这就是它的反应。”“根据这些信息,您尝试对内部必须发生的事情进行反向工程。”


2018年,这三位研究人员发表了第二篇论文,他们在论文中证明了同样的模型,可以检测边缘,也可以复制出一个整体的脉冲活动模式,在大脑皮层被称为伽马节律。(这类似于当成群的萤火虫以集体的方式闪烁时所看到的情况。)


他们还有第三篇论文在讨论中,解释了视觉皮层如何感知对比度的变化。他们的解释涉及到一种机制,通过这种机制,兴奋的神经元相互加强对方的活动,这种效果就像在舞会上聚集激情。如果视觉皮层将从稀疏的输入数据中创建完整的图像,那么这种加速是必要的。

目前,Young、Shapley和Chariker正致力于在他们的模型中增加方向感,这将解释视觉皮层是如何重建物体在你的视野中移动的方向的。之后,他们将开始解释视觉皮层如何识别视觉刺激中的时间模式。他们希望能破译,例如,为什么我们能在闪烁的交通灯中看到闪光,但在电影中我们看不到逐帧动作。


在这一点上,他们将有一个简单的活动模型,只在视觉皮层的六个层次中的一个层次上,即大脑粗略描绘视觉印象的基本轮廓的层次。他们的工作没有解决剩下的五个层次,在那里进行更复杂的视觉处理。它也没有说明视觉皮层是如何区分颜色的,而颜色是通过一个完全不同且更困难的神经通路产生的。


“我认为他们还有很长的路要走,虽然这并不是说他们做得不好,”安吉鲁奇说。“这很复杂,需要时间。”


虽然他们的模型还远未揭开视觉的全部奥秘,但这是朝着正确的方向迈出的一步,这是第一个尝试以生物学上可信的方式破译视觉的模型。


康奈尔大学的神经科学家乔纳森·维克托说:“人们在这一点上挥手很久了。”“在一个符合生物学的模型中展示你能做到这一点是一个真正的胜利。”


文转载《量子杂志》,这是西蒙斯基金会的一个社论独立出版物,其使命是通过涵盖数学和物理和生命科学的研究发展和趋势来增强公众对科学的理解。


发起:唐里 校对:鸢尾 审核:唐里

参与翻译(1人):邺调

英文原文:A Single Math Model Explains Many Mysteries of Vision

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:Hypercolumn(实例分割)

下一篇:动作识别新数据集

用户评价
全部评价

热门资源

  • 应用笔画宽度变换...

    应用背景:是盲人辅助系统,城市环境中的机器导航...

  • GAN之根据文本描述...

    一些比较好玩的任务也就应运而生,比如图像修复、...

  • 端到端语音识别时...

    从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...

  • 人体姿态估计的过...

    人体姿态估计是计算机视觉中一个很基础的问题。从...

  • 谷歌发布TyDi QA语...

    为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi...