OpenAI一键式模仿学习的新方法,窥视AI的未来

一站式模仿学习Yan Duan,Marcin Andrychowicz,Bradly C. Stadie,Jonathan Ho,Jonas Schneider,Ilya Sutskever,Pieter Abbeel,Wojciech Zaremba

5月16日,OpenAI研究人员分享了他们的一个项目的视频,以及两篇重要的论文,探讨了解决当前AI发展的三个关键瓶颈的解决方案:元学习,一次性学习和自动数据生成。 在我以前的文章中,我答应过一篇文章,致力于一键式学习的引人入胜的问题。 您可以先看一下他们发布的视频,其中介绍了他们的出色工作:

在此视频中,您将看到一个单臂物理机器人彼此堆叠的多维数据集。 知道工业机器人当前能够执行的复杂任务后,如果研究人员没有试图解释正在发生的事情,那么从很多方面讲,这将是非常令人头疼的。 在受控环境中,任务很简单,程序(硬编码)方法已经解决了这个问题,令人鼓舞和革命性的是,在噪声较大的环境中,下面的通用框架可以扩展到多种,更复杂和自适应的行为。

人与高等动物之间的思想差异固然是一种程度而非种类,但这固然很大,但这确实是一种程度。
- 查尔斯·达尔文

以此类推,这篇文章有力地证明了当前体现的AI(物理系统的人工智能)与22世纪的机器人在认知系统上的差异将是规模之大,而不是种类之大。 自2012年ImageNet竞赛*以来,深度学习研究一直在蓬勃发展,而不仅仅是通过修改神经网络进行的分布式计算的性质,而是通过寻找构建网络的新方法以使他们学习特定任务的方式。 对于神经网络功能来说,结构不是硬编码的(不是手动设计的),而是最初连接在输入和输出之间的原子计算单元的结果,它们可以修改其结构和连接。 它是通过修改网络的整体结构来学习特定功能的。

在本文中,他们建立了一个通用框架,该框架能够训练代理以抽象的方式表示任务,并在仅演示一种新颖任务(一次模仿学习)后就将知识转移到新的看不见的任务中(转移学习)。

任务

尽管确切的体系结构实现有所不同,但它们以两个任务为例来说明通用方法的性能。

粒子到达

在第一个示例中,系统接收飞机上有色目标位置的输入,以及接收到指定目标的模拟代理的单个视频演示。

图2.机器人是受二维力控制的点质量。 这一系列的任务是达到目标的里程碑。 地标的标识因任务而异,并且模型必须根据演示来确定要追求的目标。 (左)机器人图; (中)任务是到达橙色框,(右)任务是到达绿色三角形。

在训练期间,系统必须从另一个配置中复制相同的任务(到达橙色),并且机器人和目标的起始位置不同。 尚不清楚在测试过程中是否对代理程序进行了受过他培训的任务的测试(达到橙色)或接受他从未见过的任务的测试(例如达到绿色),或者两者都进行了测试。

训练有素的政策会根据新的情况进行评估,并以训练期间看不见的新示范轨迹为条件。

可以肯定的是,代理必须从唯一的演示中推断出目标目标,然后再次从另一个配置开始。 这意味着在测试之前无法了解确切的运动顺序,而必须通过对任务和运动计划的抽象(高层结构化表示)来推断。

块堆叠

在第二个示例中,代理必须学习按与单个模拟演示中所示顺序相同的顺序堆叠多维数据集(用不同的颜色标识)。 该模拟演示是由3D物理引擎生成的一系列2D图像,其中对机器人的电机和传感设备的属性进行了建模。

一口气政策。 一个单一的策略可以解决许多任务。 最高任务:{abc,def},最低任务:{ab,cd,ef}

在两个示例中,演示和实际测试中多维数据集的初始位置都不同,每个任务都从另一个初始位置开始。 机器人不会尝试替换多维数据集以使其与演示的初始位置相匹配,而是将更高级别的任务(无论其开始处于何种状态)转移到堆积多维数据集上。

使用领域随机化进行训练

在这两种情况下,训练期间使用的所有图像都是通过使用域随机化的模拟获得的,其中它们将对样本的以下方面进行随机化:

桌子上分散对象的数量和形状桌子上所有对象的位置和纹理桌子,地板,天窗和机器人的纹理相机的位置,方向和视场场景中的灯光数量位置,方向,的反射和镜面反射特性添加到图像的随机噪声的类型和数量

达到粒子训练集

我们考虑一组越来越困难的任务族,其中地标的数量从2个增加到10个。对于每个任务族,我们收集10000条轨迹进行训练,其中地标的位置和点机器人的起始位置是随机的。 我们使用硬编码的专家策略来有效地生成演示。 我们通过在将计算的动作应用到环境之前先对它们进行干扰来增加轨迹的噪音,并使用简单的行为克隆来训练神经网络策略

块堆叠训练集

具体来说,我们收集了140个训练任务和43个测试任务,每个任务具有不同的所需块布局。 每个任务中的块数可以在2到10之间变化。我们为每个任务收集1000条轨迹进行训练,并维护一组单独的轨迹和初始配置以用于评估。 类似于粒子到达任务,我们将噪声注入到轨迹收集过程中。 使用硬编码策略收集轨迹。

使用硬编码策略收集成功的演示

请注意,在学习过程中,正确的轨迹是由过程“硬编码”策略生成的,我相信它依赖于系统识别和控制的经典技术。 因此,在训练和测试过程中,座席有两个输入:a)在配置A中的演示,和b)在配置B中的开始。仅在训练期间,学习算法也可以访问理想的响应:从配置B开始的轨迹回答问题,并在学习过程中与代理的响应进行比较-使其成为有监督的学习问题。

对于每项培训任务,我们都假定有一组成功的演示可用。

如果不清楚,我将在下一部分中介绍不同类型的学习范式之间的差异。

优化算法和损失函数

监督学习是指训练范式,在该范式中,网络在每个决策中都可以访问他应该做出的正确选择,从而可以得出错误的概念。 例如,在猫和猫之间的分类任务中,训练期间的猫和猫的图像标签是事先已知的,并且可以立即检测到错误。 从这种意义上讲,这与无监督学习不同,在无监督学习中,通常要求代理在他接收的输入中找到以前未知的结构,并且如果没有猫和狗的标签,他们将不得不发现仅基于数据中包含的信息。 它也不同于强化学习,后者通常应用于实时系统,在实时系统中,导致目标的确切决策顺序是未知的,但是只有最终的“奖励”才能确定该顺序是否正确。 通过使用模仿学习,他们将经典的强化学习问题转换为监督学习问题,其中从到观察轨迹的距离计算误差。

对于任何有监督的训练设置都是如此,手头的任务完全由损失函数定义,该函数旨在量化代理与预期行为的距离。 定义此功能通常是关键的步骤,因为它确定优化算法如何更新模型的参数。 这些算法在计算时间方面很重要,并且经常需要进行一些调整才能完全收敛。 实际上,将在非常高的维度上最小化功能的解决方案驻留在参数空间的很小外壳中,它们之间的汉明距离很小,一旦您离开该小域,解决方案之间的距离就会迅速增大。 令人惊叹的詹妮弗·查耶斯(Jennifer Chayes)在该主题上做了很多非常有趣的工作,她在《话语机器》最后一集的一次非常有趣的采访中谈到了这个主题。

在培训政策网络(整个网络,能够根据输入来决定要采取的行动)的培训期间,他们首先处理成功的示范轨迹。 在这一部分中,他们将比较两种方法,经典的行为克隆(不确定使用的实现方式)和DAGGER算法。 然后,基于动作是连续的还是离散的(基于序列中事件的分布),这将允许通过12损失或交叉熵损失来使损失函数迭代最小化。 在所有实验中,他们使用Adamax算法以0.001的学习率执行优化。

步长从小开始并呈指数衰减。

该算法本身不允许转移,这是您如何构建训练集和损失函数的允许转移方法。

任务中存在两种转移。 第一种被称为“弥合现实差距”,它是学习中的一种概括,允许在模拟输入的训练与自然刺激的测试之间进行转换。 模拟数据通常是真实世界的贫乏近似,过于完美,缺乏真实对象的复杂性。 在现实世界中,摄像头可能有故障和嘈杂,电机控制将不太精确,颜色将变化,纹理将更加丰富等。为进行首次传输,他们使用了一种称为“域随机化”的方法:通过向输入中添加噪声,网络可以学习通用的相关结构,从而可以将其适当地推广到现实世界。 例如,它们将在训练示例之间更改相机的角度,更改纹理或使轨迹不那么完美。 通过在训练过程中增加噪音,我们可以增强鲁棒性。

此处测试的第二次传递是基于先前从另一个初始配置开始但具有相似最终目标的演示,以以前看不见的一组配置和目标产生相关电机序列的能力。 同样,在这里,通过我们如何构造训练集和对损失函数进行建模,转移将成为可能。 通过在训练过程中展示并非从相同初始条件开始达到相似目标的演示,您可以让网络学习嵌入目标的更高级别表示,而无需使用绝对位置以及更高级别的表示。不是简单模仿的电机顺序。 天真的初始体系结构允许训练以相关方式修改结构,而这种训练后的结构暗示了最终功能。

目标

对于块堆叠范例,他们有一些约束,他们希望他们的学习代理能够满足他们。

应用于具有不同数量块的任务实例应该很容易。
它自然应该概括为同一任务的不同排列。 例如,即使仅针对任务{abcd}进行训练,该策略也应在任务{dcba}上执行良好。
它应包含可变长度的演示。

他们有几个问题想要为该任务回答。

在可以离线收集足够数据的情况下,行为克隆培训与DAGGER相比如何?
即使最终配置具有足够的信息来完全指定任务,整个演示的条件与最终所需配置的条件又如何比较?
在整个演示中进行条件调整与在轨迹的“快照”上进行条件调整相比有何不同,后者是一帧最有用的小帧子集
我们的框架能否成功地推广到培训期间从未见过的任务类型? (++)
该方法目前的局限性是什么?

建筑

粒子到达

对于第一个示例,他们比较了三种均基于长期短期记忆(LSTM)神经网络的体系结构。 在以后的有关记​​忆和注意力的文章中,将对这些网络进行描述,这在认知科学和计算科学中都是绝对令人着迷的主题。 本质上,LSTM在每个新时间点将以前的网络输出(及时)作为网络输入的一部分,从而允许过去状态的信息通知当前(因此,它们称为短期存储网络)。 它们是处理时间序列(Alexa,Siri等)的许多最新技术的根本。

在这里,他们使用这三个特定条件:

  1. 普通LSTM:学习嵌入轨迹和当前状态,以将其馈送到多层感知器,该感知器将产生运动作用
  2. 注意的LSTM:在轨迹的地标上生成加权表示
  3. 注意最终状态:仅用于训练最终状态以对地标产生权重,类似于先前的体系结构

块堆叠

原则上,虽然通用神经网络可以学习从演示和当前观察到适当动作的映​​射,但我们发现使用适当的体系结构很重要。 我们用于学习块堆叠的体系结构是本文的主要贡献之一,并且我们相信它可以代表将来用于单次模仿学习更复杂任务的体系结构。

注意模块

在描述用于学习任务的网络结构方面,本文仍然保持较高的水平。 该体系结构的关键组成部分是他们的注意力模块,但是我相信这个主题确实需要在具体的钻研中详细介绍其基本作用。 类似于持续关注的认知科学概念,关注模块用于保持和关注跨时空跨度包含的相关信息。 它产生固定大小的输出,其中包含嵌入的信息内容,该信息内容在时间和空间上得到了扩展。 通过类比拓扑,我相信数学的一个分支将极大地指导我们将来如何理解分布式表示,注意力网络执行信息的拓扑同构,同曲率,不同形状。 请注意,这些网络不发挥显着性检测器的作用,该显着性检测器能够专注于意外或罕见事件,这是与神经科学中的关注概念相关的功能。

在这里,他们使用两种类型的注意力网络:a)时间注意力网络,它对存储在内存中的内容(查询,上下文和存储向量)产生加权和,并且b)能够恢复与块有关的信息的邻域注意力网络位置取决于代理的当前查询。

时间注意网络,其中c:上下文向量,m:记忆向量,q:查询向量,v:学习向量权重。 输出的大小与存储向量的大小相同。 它是这些向量的线性组合,允许某些内存向量根据上下文和查询向量对输出产生更大的影响。同样的想法是,注意力系统可以动态维护空间信息之间的竞争。

政策网络

完整的网络由三个不同的子网组成:演示网络,上下文网络和操作网络。

演示网络接收演示轨迹作为输入,并生成要由策略使用的演示的嵌入。 嵌入的大小随演示的长度以及环境中的块数而线性增长。

如此处所示,演示网络能够将复杂性和大小不同的演示嵌入到通用格式中,上下文网络将使用该格式来表示任务。 大概已经在此级别上进行了泛化,演示嵌入应该忽略有关演示过程中看到的确切轨迹和立方体绝对位置的信息。

从上下文的高度来看上下文环境网络的结构,我们看到了与演示网络的接口,该接口将演示的嵌入内容馈送到了中央时间注意模块。 我们还看到,先前的动作(LSTM)和当前状态作为输入与示例性嵌入进行了连接,以生成发送到电机网络的全局上下文嵌入。

我认为,他们对网络功能的描述是本文最重要的部分:

上下文网络通过根据当前状态计算查询向量开始,然后将其用于参与演示嵌入的不同时间步长。 将同一时间步长内不同块的注意权重相加,以每个时间步长产生单个权重。 这种暂时关注的结果是一个向量,其大小与环境中的块数成正比。 然后,我们施加邻域注意,以在每个块的嵌入中传播信息。 重复此过程多次,在此状态下,使用不带权重的LSTM单元提高状态。
前面的操作序列产生一个嵌入,其大小与演示的长度无关,但仍取决于块的数量。 然后,我们施加标准的软注意力以生成固定维向量,其中内存内容仅由每个块的位置组成,这些位置与机器人的状态一起形成传递给操纵网络的输入。
直观上,尽管环境中的对象数量可能有所不同,但是在操作操作的每个阶段,相关对象的数量很少,并且通常是固定的。 特别是对于块堆叠环境,机器人只需要注意它试图拾取的块(源块)的位置,以及它试图放置在()顶部的块的位置。目标块)。 因此,经过适当训练的网络可以学习将当前状态与演示中的相应阶段进行匹配,并推断源块和目标块的标识,表示为不同块上的软注意力权重,然后将其用于提取相应位置以被传递到操纵网络。

他们完成描述的方式是当前AI研究从专家系统方法转变为学习系统方法的完美示例,这也暗示了围绕大脑如何进化的讨论。

尽管我们没有在培训中强制执行这种解释,但是我们的实验分析支持了对所学政策如何在内部起作用的这种解释。

他们不知道它是如何工作的! 他们建立了一个能够执行某些计算并存储某些我们认为先验有用的信息的结构,并向其提供了一个训练集,希望整个结构都能学到! 一种正在兴起的人工智能研究伏都教,一种艺术,一种将启发式搜索指向正确方向的方法。 似乎很多魔术师现在都在为openAI工作。

用他们自己的话说,操纵网络是最简单的结构,从馈送到多层感知器的上下文嵌入中,会产生运动动作。

结果

结果通常是我很少感兴趣的部分,尤其是对于那些那些非常出色的技术论文。 我会很快讲,最重要的是,这种方法行之有效,其执行精度与硬编码专家策略相似,并且与那些特定的程序方法相反,它可以推广到各种各样的任务。

粒子到达

块堆叠

在这些实验中,他们还测试了不同的条件。 他们使用DAGGER通过对演示轨迹进行下采样来比较三种不同的输入条件:完整轨迹,轨迹快照或仅使用最终状态。 他们还将行为克隆算法与演示的完整轨迹进行了比较。

系统有能力概括多维数据集标识的有力证据

讨论区

阅读OpenAI在过去几个月中取得的快速进步,我感到越来越渴望谈论他们的工作,并就我认为他们的工作以及AI整个领域的进步分享我的想法,这使我们对如何生物大脑工作。 特别是这种日益增长的观念,即人与人之间看似共有的认知功能,与其说是因为固有的共享结构固有地知道如何执行任务,不如说是相对相似的朴素结构(面对相同环境)的结果,学习执行类似的任务。 该功能是无功能结构的结果,该结构只能由于特定的环境而学习特定的任务,而不是能够自然地完成任务的结构,只需调整几个参数即可使其适应环境。

任务与配置:看似随意的定义

我必须承认,我不明白他们为什么选择谈论他们所做的不同任务。 任务在块堆叠实验中定义为一组字符串,这些字符串表示块彼此之间的位置,集合中的元素数定义了栈数,字符数定义了需要排列的块数。 然后,一项任务是将堆栈中的块排列在一起,而不管堆栈的绝对位置如何。

桌上可能有一些方块,但不是任务的一部分

他们选择定义相对位置和堆栈数作为单独任务的标准的选择似乎是任意的。 确实,基于块的绝对起始位置(它们称为组态)谈论不同的任务也很有意义。 我相信问题的普遍性对他们来说很明显,但是为了清楚起见,他们不愿赘述。 将策略学习归纳为两种类型的推广确实更有意义,这是它们以后的做法:

请注意,泛化是在多个级别进行评估的:学到的策略不仅需要泛化为已经看到的任务的新配置和新演示,而且还需要泛化为新任务。

只需将“任务”替换为“堆栈顺序”即可。 正确学习任务意味着代理学习了一个能够抽象化多维数据集的位置(配置)的方法,还可以抽象化它们的身份(任务),堆栈数(任务)和演示的轨迹(在此简要介绍)的嵌入。报价)以产生相关的运动响应。

这些概括似乎是矛盾的,同一网络如何才能抽象化多维数据集的初始配置或它们的标识,又如何恢复其对运动响应的绝对位置?

这解释了在学习过程中需要不同的协作子网,接收不同的输入,并且解释了在上下文网络中,任务的抽象表示在降序命令之前被馈送了低阶信息,例如立方体绝对位置。

您可能会认为对任务和配置的这种区别发表评论是很愚蠢的,但必须理解,本质上,它是对不同对象起作用的相同抽象过程(这将在下一节中介绍)。

没有不变就没有学习

迁移学习可能是最有趣的认知概念,无论它是计算机内的还是体内的,对于AI研究人员和神经科学家而言都是一个非常热门的话题,并且恰好是我博士论文的主题。 请注意,在机器学习之前,已经在许多领域中探索了紧密相关的概念,并且这个抽象且始终部分定义的概念有很多名称。 哲学家,人类学家和社会学家可能将其称为(后)结构主义(Claude Levi-Strauss,Michel Foucault),语言学家将讨论宪法和嵌套树结构(Noam Chomsky),数学家可能会想到同胚或不变式,以及教育研究人员或神经科学家可能将其称为结构学习。 您可能还会看到机器学习领域中的相关概念,例如表示学习和元学习,这取决于作者可能是指转移学习或用于执行转移学习的学习范例。 在谈论深度神经网络时,这些差异是模糊的,因为从本质上讲,神经网络通常是在嘈杂的环境中通过修改其结构(元学习)来学习嵌入某个问题(表示学习),这意味着一种转移学习的形式。

AI研究人员和认知科学家通常对转移学习有一个非常具体的定义,正是这一过程使系统可以使用在某个任务中获得的知识来执行另一个具有共同组成结构的任务(如本文所述)。 认知科学具有近距离和远距离转移的概念,这取决于两个任务似乎有何不同。 但是从更抽象的角度来看,在嘈杂和复杂的环境中,所有学习都是迁移学习的一种形式,非常近距离传输和非常远距离传输之间的区别仅是共享信息的问题,这又是规模问题,而不是自然的问题。

在受控环境中,已预先努力建立一个对现实进行硬编码的离散化,但是实际上,这种离散化在程序上再现了转移学习的作用,它将一个在现实中发现的无限状态集合成一个共同的封闭结构。 从本质上讲,转移学习直接或通过扩展指代学习主体使用不变式建立世界模型的过程。 这是一个使用相似性,重复性和相同性的变体来形成越来越抽象和组成的表示的过程,该表示将在输入的方差跨度上进行结构整合。 从一般意义上讲,它允许创建用于操作信息组的基本操作,就像在数学中允许并集和交集一样。 它允许身份,它说明了我们对对象进行分类的能力。 乔什·特内姆鲍姆(Josh Tenembaum)举了一个真实的例子:假设您正在教一个两岁的孩子第一次认出一匹马,给他看几张不同的马的照片,然后给他看另一匹马的照片,一所房子的图片,请他告诉你哪一匹是马。 一个孩子会很容易地完成这项任务,但仍然是计算机用很少的输入(一次学习)就不能很好地完成这项任务。

孩子是怎么做到的?

动物识别已经在儿童中进行了研究,并且与我们将物体分解为相关部分的能力,皮毛的颜色范围,脖子的大小,整体形状等有关。这种能力也使您可以打开一扇门以前从未见过,您已经了解了可以推广到任何情况的运动序列(域推广)。 这也是您用来构建简化世界的说明性模型的工具,一开始您可能确实会对布谷鸟突然在著名的瑞士钟中出现而感到惊讶,但是在第二次亮相之后,您会期待它的出现。 寻找不变性是神经网络的学习方式,而这些模型是在不知不觉中建立的。 一个例子是我们甚至在听说数学和数字之前就如何直观地了解物理学。

例如,一个人可能会问,一个在微重力作用下出生的孩子能以多快的速度适应地球的重力,并直观地得知物体掉落时会掉落到地面上?

我们可能假设婴儿和大多数动物会不知不觉地修改其模型,就像您在袜子的脚掌上放袜子一样,要花一些时间才能适应新的信息。

但是对于一个幼儿,从好奇心到语言,符号和信念,都将有意识地审视和修改其直观模型。 我们自觉地询问和更改模型的能力令人着迷,并且,作为一个旁注,人类可能是唯一能够表达这一过程的物种,但其他物种可能会进行类似的有意识的修改。

不变性是时间的强制性属性,如果所有事物始终都是新事物,并且绝不是可预测的,那么仍然会保留这种独特不变性,即一切事物始终都是新事物且不可预测。 不可能想象一个没有不变性的世界,因为不可能有一个世界可以引用,没有不变性,生活将是不可能的,我们的大脑将无用。 生命是一种机器,它只能通过事件的可预期重复,原因和结果的重复,能量向生物的循环再引入而起作用。 在生命寻求改善对这些必要循环的利用的过程中,我们的大脑是终极工具。 它是一种预测机器,是一种自适应性器官,能够动态地发现重复并使用它来与世界更好地互动。

生命所选择的这种方法对于结构的微小变化非常坚固。 仍然是世界,即环境的统计属性,但是遇到环境的神经结构可以变化,只要它可以嵌入其演化来处理的相关信息即可。 这就解释了为什么我们的大脑可能因个体而异,甚至是初级皮层如此之大,却共享相同的功能。

神经系统是适应性的,它们不需要进化和缓慢的基因突变就可以以相关方式改变行为。 一个简单的神经系统,例如在C. Elegans中发现的神经系统,可以作为先天的内部协调器和外部传感器:感知食物并向食物前进,摆脱痛苦而繁殖。 这些简单的系统最初是僵化的,并且对高度嘈杂的世界进行了极端逼近,以使其在少数可能的状态(食物在左侧,热量在下方等)中离散化。 我们的运动和感觉能力与我们的神经系统预测能力齐头并进。 随着我们的传感器变得越来越精确,神经系统逐渐能够修改其结构以存储信息并从经验中学习。 最初,它能够学习识别某些类别的输入,例如气味或灯光模式的类型,并且还能够通过反复试验来学习,以控制其日益复杂的电机系统。 请注意,世界是如此复杂,以至于我们的大脑自然地向学习范式进化,而不是先天的过程方法。 从计算上讲,这完全有道理,一个简单的围棋游戏具有比宇宙中原子数(10个)大得多的状态空间(2.10 1个),并且随着有机体变得越来越复杂,试图对所有可能的近似值进行硬编码指出由于组合爆炸,它可能很快变得难以处理。

某些人可能会相信我们的大脑是这样构造的:它天生地代表了它将在其中进化的空间,即在DNA的某处有一个构成面部的基因,或者是构成声波的时间结构起来的话。 他们可能认为这种先天知识是在出生时某处编码的。 其他人可能会像我上高中时的哲学老师一样相信存在先于本质,而我们的大脑完全是由有机体和世界的相遇所定义的。 实际情况当然更加复杂,对于迄今为止已研究的大多数远脑系统,大脑并没有固有地编码其将要执行的功能,而是根据其输入中包含的信息来学习它。 如果输入的相关信息太少,则在那些结构中学习的能力可能会过​​期(例如弱视)。 但是,如果先天结构不编码最终功能,则大脑确实具有特定的结构。 这种结构在个体之间得以保留,相同物种的个体具有共同的功能和驱动力。 DNA确实设置了一定的结构,该结构不能自然地执行其最终功能,但可以根据个人经验来学习特定任务的复杂性。 毫不奇怪,进化导致出现了高效的血脑屏障,使大脑与身体其他部位以及保护大脑免受外界侵害的脑膜和坚硬的骨壳隔离开来,因为与其他器官不同由于结构是在基因组中编码的,因此无法从先天存储的模型中再生受过训练的大脑的结构。 令人着迷的是,通过开发执行越来越复杂的任务的日益复杂的深度网络,我们看到了类似的学习机制。

组成结构很难看,但无处不在

附带一提的是,奇怪的是,即使是作者也没有意识到他们实现目标的首要任务具有组成结构。

粒子到达任务很好地说明了在简单场景中进行泛化的挑战。 但是,任务不共享组成结构,这使得对新任务的泛化评估具有挑战性。

尽管该结构确实比块堆叠的层次低,并且不容易通过实验操作进行访问,但该任务确实是由共享结构组成的。 将世界近似于平面,一种组成结构是通过平移保留了多维数据集标识(颜色),并从位置(Xa1,Ya1)的块A-或随机起始位置到位置(Xb1,Yb2)的块B )是与从位置(Xa2,Ya2)的块A到位置(Xb2,Yb2)的块B相同的更高阶成分结构的一部分。

网络之间的接口

能够处理不同抽象级别输入的神经网络的精炼将需要接口,我认为这个领域尚待发现。 这些接口可以具有多种性质。 例如,它们可以看作是两个网络之间的通用语言,如文章中所演示的那样,配备了注意力系统的较低级网络(演示网络)可以将演示转换为另一个网络(上下文网络)可以使用的表示形式指导行动,无论演示的时间长短或初始配置如何。

这种语言的表面在这里是大小固定的平面,但是可以想象可能会进行改进以改善网络之间的通信的平面。 例如,可以将表面的大小设置为随着学习期间网络交互而动态地增长或缩小,从而压缩或扩展语言的复杂性。 我们还可以想象通过反馈提供更多动态互动。 我们可以想象存在促进者网络,它可以学习平滑网络之间的通信,存在于一个并行网络中,可以根据第二个网络的输入和输出来调制第一个网络的输入。 我们可以想象,复杂的上下文网络会像滋补品(缓慢变化)涌入多个更专业的网络一样……令人着迷的未来研究领域!

失败案例暗示了新模块可能扮演的角色

值得注意的是,错误通常是由于马达错误引起的,并且错误的数量会随着任务的复杂性而增加。

运动功能不应仅通过增加目标数量而恶化,这是有力证据表明,再生网络学习与运动网络交谈的方式过于抽象。 奇怪的是,因为他们说他们的测试表明上下文网络和电机网络之间的接口是相对具体的(机器人的位置,目标的位置)。

可能的解决方案可能是,因为这是模块化体系结构,所以要使用不同的损失函数,或者代表任务每个特定方面的模块化损失函数。 等效的大脑运动前区域也可以帮助确保演示和上下文网络保持抽象状态而不会降低运动命令。 运动前区域对于根据目标(来自抽象网络)和感官输入更好地定位对象是必要的,以便选择最佳运动命令。 似乎上下文网络正在尝试将演示转移到更高级别的嵌入,并同时在当前上下文中同时准备动作。 运动前网络的作用是学习以面向目标和自适应的方式与运动系统进行通信,将运动前和小脑的功能结合起来以进行运动学习和快速适应。

有一个有趣的理论,即莫拉韦克悖论,它预测,将不会在更高层次的认知上进行计算繁重,而是在处理感觉输入和运动系统输出方面。 这确实可以解释我们小脑中存在的大量神经元(比大脑其他部位更多)来自适应地控制运动。 这种悖论是在某个时期(80年代)提出的,当时我们仍然相信我们可以将自己的知识嵌入机器中,以在不受控制的嘈杂环境中执行复杂的任务。 当然,如果机器能够以某种离散状态集来表示世界,则这种悖论是有道理的,因此在此基础上构建更高级别的功能将更加容易。 但是我相信两者都将被证明是极度费力的,并且网络之间的接口所使用的内部表示形式将与我们自己的有意识的表示形式相去甚远。

结论

通过组合各自负责问题具体处理的不同神经网络,本文表明,通过创建本质上需要泛化的任务,并通过域随机化,可访问内存的神经网络和可扩展性构建一个合适的学习环境。注意系统可以学习超越简单复制的概括。 它可以学会发现仅在信息可视流中仅被演示过一次的更高阶目标,并且可以在广义空间中执行计算以恢复能够在不同上下文中重现该目标的适当动作。

将来,我们将看到在那些能够学习概括复杂任务但更重要的是在新环境中执行这些任务中的那些原子构件上构建的结构的复杂性越来越高,而对硬编码方法(例如输入或输出的预处理)的依赖则减少了内存存储。 内存存储将被整个内存网络中的分布式表示所取代,注意力系统将被实时注意力网络中的周期性活动所取代。 问题仍然是,我们如何能够将强大的串行技术(图灵机)应用于我们对嵌入式系统中分布式计算的日益依赖。