原标题:权重不可知神经网络 (WANNs) 探索
来源:AI研习社 链接:https://www.yanxishe.com/TextTranslation/2078
当训练神经网络完成给定的任务时,无论是图像分类还是强化学习,通常都会细化与网络中每个连接相关的一组权重。另一种已经取得实质性进展的成功的神经网络创建方法是神经网络搜索架构,它利用人工设计的组件(如卷积网络组件或transformer模块)构建神经网络体系结构。研究表明,利用这些组件构建的神经网络结构,如深度卷积网络,对图像处理任务具有很强的归纳偏好,甚至可以在权值随机初始化的情况下执行。尽管对于已知任务领域归纳偏置的手工设计的组件,神经网络搜索架构产生了一些新的组合方法,但是在自动发现具有此类归纳偏置的新神经网络架构(用于不同的任务域)方面几乎没有进展。
我们可以在自然的和训练过的例子中看看这些有效组件的类比。就像某些从出生起就具有反捕食行为的早熟物种,无需学习就能完成复杂的运动和感知运动一样,也许我们可以构建不需要训练就能很好地完成任务的网络结构。当然,这些自然的(通过类比,人工的)神经网络通过训练得到了进一步的改善,但它们即使不学习也能执行任务的能力表明,它们包含的偏好使它们非常适合对应的任务。
在权重不可知神经网络(WANN)中,我们提出了搜索具有这些偏好的网络的第一步:即使使用随机共享的权重,也可以执行各种任务的神经网络结构。我们在这项工作中的动机是,在不学习任何权重参数的情况下,仅神经网络结构就能在多大程度上编码给定任务的解决方案。通过研究这样的神经网络结构,我们提出了一种无需学习权值参数就能在其环境中运行良好的智能体。此外,为了促进该领域的进步,我们还开放了源代码,以便更广泛的研究社区重现了我们的WANN实验。
左:一个手工设计的、全连接的深度神经网络,有2760个权重连接。利用学习算法,我们可以解出2760个权值参数的集合,使该网络能够执行BipedalWalker-v2任务。右:一个权重不可知的神经网络架构,有44个连接,可以执行相同的两足步行任务。与全连接网络不同的是, 在不需要训练每个连接的权值参数的情况下, 这个WANN仍然可以执行任务。实际上,为了简化训练,WANN被设计成在每个权值连接的值相同或共享时执行,甚至在这个共享权重参数被随机采样时也会起作用。
搜索WANNs
我们从一组最小的神经网络体系结构候选对象开始,每个候选对象只有很少的连接,并使用一个完善的拓扑搜索算法(NEAT),通过一个接一个地添加单个连接和单个节点来演进体系结构。WANNs背后的关键思想是通过降低权重来搜索架构。与传统的神经结构搜索方法不同,新结构的所有权值参数都需要使用学习算法进行训练,我们采用了一种更简单、更有效的方法。在这里,在搜索过程中,所有候选体系结构首先在每个迭代中分配一个共享权重值,然后进行优化,以便在较大的共享权重值范围内很好地执行。
用于搜索网络拓扑空间的操作符
左:一个最小的网络拓扑结构,输入和输出只部分连接。
中间:网络有三种改变方式:
(1)插入节点:通过分开现有连接插入新节点。
(2)添加连接:通过连接两个以前未连接的节点来添加一个新连接。
(3)变更激活:重新分配隐藏节点的激活函数。
右:可能的激活函数(线性,阶跃,sin, cos,高斯,tanh, sigmoid,取反,绝对值,ReLU)
除了探索一系列权重不可知的神经网络之外,重要的是还要寻找只需要复杂到相应程度的网络架构。我们利用多目标优化技术,同时对网络的性能和复杂度进行优化。
权重不可知神经网络搜索及其相应的网络拓扑空间搜索算子概览
训练WANN架构
与传统网络不同的是,我们可以通过简单地找到最佳单个共享权参数来训练WANN,从而最大限度地提高其性能。在下面的例子中,我们可以看到我们的架构(在某种程度上)使用恒定的权重来完成一个向上翻转的侧手翻任务:
一个WANN在不同的权重参数下执行侧手翻任务,以及使用微调的权重参数的任务。
正如我们在上面的图中看到的,虽然WANNs可以使用共享权重参数的范围来执行其任务,但是其性能仍然无法与学习每个单独连接的权重的网络相比较,像一般的网络训练中做的一样。如果我们想进一步提高它的性能,我们可以使用WANN架构和最佳共享权作为起点,使用学习算法微调每个连接的权值,就像我们通常训练任何神经网络一样。以网络架构的权重无关特性为出发点,通过学习对其性能进行微调,可能有助于为动物如何学习提供有洞察力的类比。
通过对性能和网络简单性的多目标优化,我们的方法找到了一个简单的WANN,用于汽车竞赛的像素任务,在不需要显式训练网络的权值时也能工作的很好。
网络架构仅使用随机权重的功能还提供了其他优势。例如,通过使用相同WANN体系结构的副本,但是其中WANN的每个副本都分配了不同的权重值,我们可以为相同的任务创建多个不同模型的集成。这种集成通常比单个模型获得更好的性能。我们用一个MNIST分类器的例子来说明这一点,该分类器进化为在随机权重的情况下工作:
MNIST分类器进化为在随机权重的情况下工作。
传统的随机初始化网络在MNIST上的精度约为10%,而这种特殊的网络结构使用随机权值,当应用于MNIST上时,其精度远高于随机(> 80%)。当使用一组WANNs时,每个WANNs分配一个不同的共享权重,精确度提高到> 90%。
即使没有集成方法,也可以将网络中的权重值压缩到一个,从而使网络能够快速调整。快速调整权重的能力可能在持续的终生学习中很有用,在这种学习中,智能体在整个生命周期中获得、适应和迁移技能。这使得WANNs特别适合利用鲍德温效应(Baldwin effect),鲍德温效应是一种进化压力,它奖励那些倾向于学习有用行为的个体,而不是陷入"学习怎样学习"的代价高昂的陷阱中。
总结
我们希望这项工作可以作为一个垫脚石,帮助发现新的基础神经网络组件,如卷积网络,其发现和应用已经在深度学习取得了令人难以置信的进展。自卷积神经网络被发现以来,研究领域可用的计算资源显著增加。如果我们将这些资源投入到自动化探索中,并希望在网络体系结构中实现更多的增量改进,那么我们相信,使用新的构建块来搜索也是值得的,不仅仅是他们的组合。
如果您有兴趣了解更多关于这项工作的内容,我们邀请读者阅读我们的互动文章(或pdf版本的离线阅读论文)。除了将这些实验开源给研究社区外,我们还发布了一个名为PrettyNEAT的通用Python实现,以帮助感兴趣的读者从基本原理出发探索神经网络演进的令人兴奋的领域。
发起:唐里 校对:敬爱的勇哥 审核:鸢尾
参与翻译(1人):had_in
英文原文:Exploring Weight Agnostic Neural Networks
一THE END一
免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。
合作及投稿邮箱:E-mail:editor@tusaishared.com