CN113015983A

CN113015983A - 包括持续学习世界模型的自主***及相关方法

Info

Publication number: CN113015983A
Application number: CN201980074727.5A
Authority: CN
Inventors: 尼可拉斯·A·凯兹; 帕文·K·皮利; 索黑尔·柯劳里; 查尔斯·E·马汀; 麦可·D·霍华德
Original assignee: Hrl Laboratory Co ltd
Current assignee: Hrl Laboratory Co ltd; HRL Laboratories LLC
Priority date: 2018-10-24
Filing date: 2019-08-22
Publication date: 2021-06-22
Also published as: EP3871156A2; WO2020112186A9; WO2020112186A2; US20200134426A1; WO2020112186A3

Abstract

一种自主或半自主***包括：时间预测网络，其被配置为在第一任务的执行期间处理来自***的环境的第一组样本；控制器，其被配置为处理来自所述环境的第一组样本和由所述时间预测网络输出的隐藏状态；所述时间预测网络的保留副本；以及所述控制器的保留副本。所述时间预测网络的保留副本和所述控制器的保留副本被配置为生成模拟转出，并且所述***被配置为在第二任务的执行期间将所述模拟转出与来自所述环境的第二组样本交织，以保留用于执行第一任务的所述时间预测网络的知识。

Description

包括持续学习世界模型的自主***及相关方法

相关申请的交叉引用

本申请要求2018年10月24日提交的美国临时申请号62/749,819的优先权和益处，其全部内容通过引用并入本文。

关于联邦资助研究或开发的声明

本发明是在AFRL/DARPA颁发的政府合同号FA8750-18-C-0103下，在美国政府支持下完成的。美国政府对本发明享有一定权利。

背景技术

1.领域

本公开一般涉及用于自主或半自主***的人工神经网络，以及训练这些人工神经网络的方法。

2.相关技术的描述

诸如图像识别、计算机视觉、语音识别和医疗诊断的复杂任务越来越多地由人工神经网络执行。人工神经网络通常通过呈现已经被手动标识为正训练示例(例如，人工神经网络旨在识别或标识的图像或声音的类型的示例)或负训练示例(例如，人工神经网络旨在不识别或标识的图像或声音的类型的示例)的一组示例来训练。

人工神经网络包括经由突触彼此连接的节点的集合，称为人工神经元。神经元之间的连接具有随着人工神经网络学习而调整的权重，这取决于那些神经元之间的连接是否产生网络的期望行为(例如，图像或声音的正确分类)来增加或减小连接处的信号强度。另外，人工神经元通常被聚集成层，诸如输入层、输出层、以及输入层与输出层之间的一个或多个隐藏层，这些层可对其输入执行不同类型的变换。

然而，许多人工神经网络易受被称为灾难性遗忘的现象的影响，其中当被呈现新的训练数据时，人工神经网络迅速遗忘先前学习的任务。

发明内容

本公开涉及自主或半自主***的各种实施例。在一个实施例中，该***包括被配置为在第一任务执行期间处理来自所述***的环境的第一组样本的时间预测网络、被配置为处理来自所述环境的所述第一组样本和由所述时间预测网络输出的隐藏状态的控制器、所述时间预测网络的保留副本以及所述控制器的保留副本。所述时间预测网络的保留副本和所述控制器的保留副本被配置为生成模拟转出，以及所述***被配置为在第二任务的执行期间将所述模拟转出与来自所述环境的第二组样本交织，以保留用于执行所述第一任务的所述时间预测网络的知识。

所述***可包括自动编码器，其被配置为将来自所述***的环境的所述第一组样本嵌入到潜在空间中。

自动编码器可以是卷积变分自动编码器(convolutional variational auto-encoder)。

所述控制器可以是基于随机梯度下降的强化学习控制器。

所述控制器可以包括A2C算法。

所述时间预测网络可以包括长短时记忆(LSTM)层以及混合密度网络。

所述控制器可以被配置为输出动作分布，并且来自所述动作分布的采样动作可以使所述第一任务上的预期奖励最大化。

本公开还涉及具有存储在其中的软件指令的非暂时性计算机可读存储介质的各种实施例，所述软件指令在由处理器执行时使所述处理器：在第一任务执行期间，在来自自主或半自主***的环境的第一组样本上训练时间预测网络，在来自环境的所述第一组样本和由所述时间预测网络输出的隐藏状态上训练控制器；存储所述时间预测网络的保留副本，存储所述控制器的保留副本，从所述时间预测网络的保留副本和所述控制器的保留副本生成模拟转出；以及在第二任务的执行期间将所述模拟转出与来自所述环境的第二组样本进行交织，以保留用于执行所述第一任务的所述时间预测网络的知识。

所述软件指令在由所述处理器执行时可以进一步使所述处理器使用自动编码器将所述第一组样本嵌入到潜在空间中。

所述自动编码器可以是卷积变分自动编码器。

训练所述控制器可以利用包括具有特定温度的交叉熵损失函数(cross-entropyloss function)的策略蒸馏(policy distillation)。

所述特定温度可以是0.01。

所述控制器可以是基于随机梯度下降的强化学习控制器。

所述控制器可以包括A2C算法。

所述软件指令在由所述处理器执行时还可以使所述处理器从所述控制器输出动作分布，并且来自所述动作分布的采样动作可以使所述第一任务上的预期奖励最大化。

本公开还涉及训练自主或半自主***的方法的各种实施例。在一个实施例中，该方法包括训练时间预测网络以在第一任务执行期间对来自***环境的第一组样本执行1-时间-步长预测，训练控制器以基于所述第一组样本和所述时间预测网络的隐藏状态来生成动作分布，其中所述动作分布的采样动作使所述第一任务上的预期奖励最大化，将所述时间预测网络和所述控制器分别保留为所述时间预测网络的保留副本和所述控制器的保留副本，从所述时间预测网络的保留副本和所述控制器的保留副本生成模拟转出，以及在第二任务的执行期间将所模拟转出与来自所述环境的第二组样本交织，以保留用于执行所述第一任务的所述时间预测网络的知识。

训练所述控制器可以利用包括具有0.01的特定温度的交叉熵损失函数的策略蒸馏。

所述方法可以包括利用卷积自动编码器将在所述第一任务的执行期间收集的所述第一组样本嵌入到潜在空间中。

所述控制器可以是包括A2C算法的基于随机梯度下降的强化学习控制器。

提供本发明内容以介绍将在以下详细描述中进一步描述的本公开的各实施例的特征和概念的选集。本发明内容不旨在标识所要求保护的主题的关键或必要特征，也不旨在用于限制所要求保护的主题的范围。所描述的特征中的一个或多个可以与一个或多个其它所描述的特征组合以提供可使用的设备。

附图说明

当结合附图考虑时，通过参考以下详细描述，本公开的实施例的特征和优点将变得更加明显。在附图中，在所有附图中使用类似的附图标记来表示类似的特征和部件。附图不一定按比例绘制。

此外，专利或申请文件包含至少一个彩色绘制的图。具有彩色附图的本专利或专利申请公开的副本将在请求并支付必要的费用后由官方提供。

图1是根据本公开的一个实施例的***的示意性布局图，该***被并入自主或半自主***中；

图2是示出根据本公开的一个实施例的开发、训练和利用图1所示的***的方法的任务的流程图；

图3A描绘了三个曲线图，示出了三个不同任务的性能曲线，并且将根据本公开的一个实施例的在训练期间模拟转出(simulated rollout)与真实体验(real experience)交错时每个任务的性能与在模拟转出与真实体验没有发生交错时每个任务的性能进行比较；

图3B是比较根据本公开的具有伪预演(pseudo-rehearsal)的一个实施例和不具有伪预演的比较示例的总积分损失(total integrated loss)百分比的图；

图3C描绘了针对三个不同任务中的每一个，具有伪预演的本公开的实施例与不具有伪预演的比较示例之间的总损失的成对差异的图；以及

图4A-4C分别描绘了当在训练中没有使用伪预演时(即，没有发生模拟转出与真实体验的交错)，来自视频游戏的测试转出(test rollout)的重建，当在训练中发生伪预演时(即，模拟转出与真实体验交错)来自视频游戏的测试转出的重建，以及来自环境的真实转出(real rollout)。

具体实施方式

本公开涉及作为自主或半自主***的一部分的人工神经网络的各种实施例，以及训练作为自主或半自主***的一部分的人工神经网络的各种方法。本公开的人工神经网络被配置成学习新任务而不遗忘它们已经学习的任务(即，学习新任务而不遭受灾难性遗忘(catastrophic forgetting))。本公开的人工神经网络和方法被配置为学习自主或半自主***所暴露的环境的模型，并且从而在对自主或半自主***的下一输入的条件下或根据对***的当前输入和由***的其他部分选择的动作(一个或多个)来执行时间预测(temporalprediction)。在一个或多个实施例中，该时间预测然后被反馈到***作为输入，其产生随后的时间预测，该随后的时间预测本身被反馈作为***的输入。以此方式，本公开的实施例可以提供或产生模拟体验(simulated experience)的时间上一致的转出(rollout)，然后可以将其与真实体验交织以保留***内已经存在的知识。产生模拟体验的时间一致的转出允许底层的自主或半自主***具有与分开体验(即，非时间一致的体验)的随机采样相反的可能需要时间一致的样本的更多种类的架构。另外，本公开的实施例被配置成基于随机起始种子或特定的感兴趣起始种子(例如，特定的感兴趣状况或任务)来生成这些时间上一致的模拟体验的转出。在一个或多个实施例中，本公开的***和方法利用对自主或半自主***的当前输入作为种子，这使得能够执行近期潜在场景的模拟转出以帮助动作选择和/或***评估。

在一个或多个实施例中，本公开的***和方法可以被嵌入或并入到自主或半自主***中，该自主或半自主***需要在无约束环境内连续地执行任务或任务集，使得预期自主或半自主***执行的条件的范围至少部分已知(即，自主或半自主***将执行的条件不是完全先验已知的)。例如，在一个或多个实施例中，本公开的***和方法可以被嵌入或并入到自主或半自主***中，该自主或半自主***期望在变化的条件下执行相同的任务(例如，在干燥天气条件和积雪条件下自主或半自主驾驶)以及在相同的条件下执行不同的任务(例如，导航网络界面以使得用户能够选择和预订飞机航班以及选择和预订汽车租赁)。因此，本公开的实施例，使得在***的全局范围没有被预先定义而是在部署期间被定义的环境中能够部署自主或半自主***，其使得能够在没有灾难性遗忘的情况下进行连续学习(例如，本公开的***和方法可以被并入在具有不受控条件的非特定环境中操作的自主或半自主***)。例如，本公开的实施例可以使得自主或半自主***能够学习在各种条件(例如，湿、冰、雾)中导航，而不需要指定所有那些条件将是先验的，或者重新经历已经学习的各种条件以在其中良好地执行。例如，本公开的方法将使得例如自驾汽车能够学会识别三轮车而不会忘记如何识别自行车，并且将使得无人飞行器能够学会如何在侧风中着陆而不会忘记如何在雨中起飞。类似地，已经学会执行特定任务(例如，装载行李)的自主或半自主***(例如，无监督机器人)然后可以被训练成按需执行新任务(例如，清洗窗户)，同时还保持其执行其原始任务的能力。自主或半自主***可以是例如自驾汽车或无人驾驶飞行器。

在一个或多个实施例中，本公开的***和方法被配置成适应非二进制输入/输出结构(例如，本公开的***和方法不需要将体验分割成标记的任务或条件)。另外，在一个或多个实施例中，本公开的***和方法被配置为解释***在其原始域中的输出，以供自主或半自主***在评估近期事件的潜在行动选择计划时使用(例如，本公开的***和方法将所有体验集成在一组统一的权重中，而不是集成在将限制任务/状况之间的转移的不相交的组中)。此外，在一个或多个实施例中，本公开的***和方法被配置为由于所模拟转出的顺序性质而在诸如策略梯度强化学习代理的复杂学习方法中保存知识。

现在参考图1，根据本公开的一个实施例的***100被并入或集成到自主或半自主***中，该***包括自动编码器101、时间预测网络102以及代理或控制器103。自动编码器101被训练成将高维输入(例如，来自场景的图像，诸如由相机捕获的视频)压缩到较小的潜在空间(latent space)(z)中，并且还允许将潜在空间(Z)重建回到高维空间中。在所示的实施例中，由自动编码器101输出的潜在空间表示(z)被输入到时间预测网络102中。时间预测网络102被训练成预测未来的一个时间步并输出隐藏状态(h)。在一个或多个实施例中，例如，如果输入的输入维度足够小以致嵌入是不必要的，则***100可以不包括自动编码器101。如本文所使用的，短语“潜在空间”以及“潜在向量”表示观察结果。

自动编码器是一种人工神经网络，其可以用于以无监督的方式学习数据集的表示，诸如用于降维。在一个或多个实施例中，自动编码器101可以是变分自动编码器(VAE)。在自动编码器101是VAE的一个或多个实施例中，自动编码器101被配置为通过优化来自嵌入回到原始观察空间中的样本的重构误差以及来自那些样本被编码到的嵌入空间上的潜在空间上的先前分布的样本的Kullback-Leibler(KL)散度(例如均值为0且标准偏差为1的因子分解的高斯)的组合来学习将观察到的样本(例如，自主或半自主***正在其中操作的环境的图像)编码和重构到潜在嵌入中。在一个或多个实施例中，自动编码器101可以是卷积VAE。在一个或多个实施例中，自动编码器101可以是具有与David Ha和JürgenSchmidhuber，“Recurrent world models facilitate policy evolution”，Advances inNeural Information Processing Systems,第2455页-2467页、2018中描述的相同架构的卷积VAE，其全部内容通过引用并入本文。在一个或多个实施例中，卷积VAE 101可被配置为使输入图像通过四个卷积层(分别为32、64、128和256个滤波器)，每个卷积层具有4×4权重核和跨距2。四个卷积层的输出通过完全连接的线性层传递到潜在空间的维度中的每个维度的均值和标准偏差值上，然后时间预测网络102和控制器103利用该均值和标准偏差值来从潜在空间进行采样，如以下更详细描述的。为了将潜在空间重建回高维空间，卷积VAE101包括反映卷积层的一组解卷积层，其被配置为将潜在表示作为输入并产生与原始输入(例如，高维空间)相同维度的输出。在一个或多个实施例中，卷积VAE 101的所有激活函数被线性修正，除了最后一层之外，该最后一层利用S形激活函数将激活约束到0和1之间的值。

在所示实施例中，时间预测网络102被配置为获取潜在空间(z)并使其传递通过长短时记忆(LSTM)层。来自LSTM层的输出然后与自主或半自主***所采取的当前动作连接，并输入到混合密度网络，该混合密度网络将输入通过线性层传递到输出表示上，该输出表示是用于确定特定正态分布的平均值和标准偏差，以及用于对来自自动编码器101的潜在空间(z)输出的每个维度中的那些单独分布进行加权的混合参数集。来自时间预测网络102的输出还包括预测的奖励和预测的情节终止概率。

在所示实施例中，控制器103将与自动编码器101输出的当前潜在向量(z)连接的来自时间预测网络102的隐藏状态□输出作为输入(即，自动编码器101和时间预测网络102的输出被用作控制器103的潜在状态空间)。在一个或多个实施例中，控制器103可以是基于随机梯度下降的强化学习控制器。在一个或多个实施例中，控制器103可包括Actor-Critic算法，诸如，例如A2C算法，其是对在Volodymyr Mnih、Adria Puigdomenech Badia、MehdiMirza、Alex Graves、Timothy Lillicrap、Tim Harley、David Silver和KorayKavukcuoglu，“用于深度强化学习的异步方法(Asynchronous methods for deepreinforcement learning)”，机器学习的国际会议(International conference onmachine learning)，第1928页-1937页、2016页中描述的原始A3C算法的同步修改，其全部内容通过引用并入本文。

在所说明的实施例中，控制器103经配置(即，经训练)以基于隐藏状态□和当前潜在向量□输出动作的分布□，使得来自动作分布□的采样动作□最大化时间预测网络102经训练所针对的相同任务上的预期奖励。来自动作分布□的采样动作□被反馈到时间预测网络102中以生成真实转出。

在所示的实施例中，***100还包括时间预测网络的保留副本104和控制器的保留副本105(即，诸如通过将经训练的时间预测网络102和经训练的控制器103存储在存储器中来保留它们)。时间预测网络的保留副本104和控制器的保留副本105被配置成生成来自模拟过去体验的样本，其可以在后续任务的训练期间与来自实际体验的样本交织。在所示实施例中，时间预测网络的保留副本104被配置成产生第一模拟观察

和隐藏状态。第一模拟观察和隐藏状态被提供给控制器的保留副本105，其输出潜在动作的第一分布以及从潜在动作的第一分布采样的特定动作。来自动作分布的采样动作被反馈到时间预测网络的保留副本104中以生成伪样本的模拟转出(simulated rollout)。如下面更详细描述的，这些模拟转出然后与真实转出(real rollout)交织(interleave)以保留***100内已经存在的知识，并且由此防止或至少减轻时间预测网络102的灾难性遗忘。

图2是示出开发、训练和利用图1所示的***100的方法200的任务的流程图。在所示实施例中，方法200包括训练和/或获得自动编码器101，并利用自动编码器101将来自所有潜在环境的高维样本嵌入到较低维空间(即，潜在空间(latent space))中的步骤(动作)210。在一个或多个实施例中，例如，如果输入维度足够小，则方法200可不包括训练和/或获得自动编码器101的步骤210。

在所示的实施例中，生成潜在空间的步骤210包括首先对特定任务采样特定持续时间以便训练。在一个或多个实施例中，步骤210包括利用随机动作选择策略从环境收集数据。在步骤210期间，在t是给定时间步的情况下，保存(例如，存储在存储器中)[[z_t,a_t,r_t,d_t]_{Tmax}]_{N}的转出，z_t是由自动编码器101产生的当前观察的潜在表示，a_t是所选择的动作，r_t是观察到的奖励，以及d_t是事件的二进制完成状态。对于每个任务暴露，收集N个转出，并且允许每个转出继续进行，直到二进制完成状态d_t为1或者它达到记录的时间步长的最大数目Tmax。

在所示的实施例中，方法200还包括步骤(动作)220，其训练时间预测网络102以基于在步骤210中保存的转出[[z_t,a_t,r_t,d_t]_{Tmax}]_{N}来执行对自主或半自主***的下一输入的1-时间-步长预测(1-time-step prediction)。

在所示的实施例中，方法200还包括训练控制器103以产生动作分布□的步骤(动作)230，使得来自动作分布□的采样动作□最大化在步骤220中训练时间预测网络102的相同任务上的预期奖励。在一个或多个实施例中，控制器103的网络利用由编码器101输出的当前观察z_t的潜在嵌入和经训练的时间预测网络102的当前隐藏状态h_t作为输入。在方法200的步骤230期间，针对当前任务内的n个步骤训练控制器103的网络。

在所示的实施例中，在训练时间预测网络102和控制器103的步骤220和230之后，方法200包括将经训练的时间预测网络102和经训练的控制器103分别保存为时间预测网络的保留副本104和控制器的保留副本105的步骤(动作)240。

在所示的实施例中，方法200包括步骤(动作)250，其对新任务采样特定持续时间，并且从在步骤240中生成的时间预测网络的保留副本104和控制器的保留副本105生成伪样本(伪转出(pseudo-rollout))。从时间预测网络的保留副本104和控制器的保留副本105生成的伪样本将与来自新传入任务的真实样本交织。在一个或多个实施例中，步骤250包括通过时间预测网络的保留副本104和控制器的保留副本105处理当前任务，其生成新的一组真实转出。在一个或多个实施例中，时间预测网络的保留副本104和控制器的保留副本105可以生成真实或模拟转出(模拟转出需要对预测的z进行采样，而真实转出使用观察到的真实z)。在一个或多个实施例中，步骤250包括将由自动编码器101输出的来自当前任务的编码观察(z)提供给时间预测网络的保留副本104，并且然后提供给控制器的保留副本105，其产生形式[[z_t,a_t,r_t,d_t]_{Tmax}]_{N}的转出的特定动作。在一个或多个实施例中，时间预测网络102和时间预测网络的保留副本104各自提供下一个z将在下一个时间步长z_{t+1}上是什么的预测，并且通过将预测的z连续地反馈回***上以得到随后预测(z_{t+2},z_{t+3}...z_{t+n})将是什么的估计来创建模拟转出。在一个或多个实施例中，生成模拟转出的过程然后通过挑选基于自动编码器101的先前采样的潜在空间(z)中的随机点连同置零的隐藏状态和随机采样的动作开始，所述随机点可以是均值为零且标准偏差为1的对角多变量高斯分布。任务250还包括将潜在空间(z)中的随机选择的点输入到时间预测网络的保留副本104，其产生第一模拟观察和隐藏状态。然后，将第一模拟观察和隐藏状态提供给控制器的保留副本105，其生成潜在动作的第一分布和从潜在动作的该分布采样的特定动作。该过程继续利用最后的样本作为对时间预测网络的保留副本104的输入，并且[,,,,]元组被及时堆叠以产生伪样本的模拟转出。

这些伪样本的模拟转出是网络已经暴露于的任务的模拟，并且这些模拟转出然后可以在步骤260中与新的体验(例如，来自由自动编码器101编码的环境的新样本)交织，以相对于先前学习的任务保持时间预测网络102和控制器103的性能。时间预测网络102中的伪预演更新与来自真实样本的相同，只是使用模拟转出来代替真实转出。在一个或多个实施例中，利用具有特定温度□的交叉熵损失函数的策略蒸馏来执行控制器103网络中的更新，如在Andrei A Rusu、Sergio Gomez Colmenarejo、Caglar Gulcehre、GuillaumeDesjardins、James Kirkpatrick、Razvan Pascanu、Volodymyr Mnih、Koray Kavukcuoglu和Raia Hadsell，“策略蒸馏(Policy distillation)”，arXiv preprint arXiv:1511.06295，2015中描述的方法，其全部内容通过引用并入本文。在一个或多个实施例中，特定温度□被设定为0.01。在一个或多个实施例中，假设给定的模拟样本作为输入，控制器103的输出分布的温度调制softmax(□(-))被强制为类似于来自控制器的保存副本105的模拟输出分布)的温度调制softmax(□(-)。

根据本发明的一个示例性实施例，下面提供了用于执行上述任务210-260的代码。

在方法200的一个或多个实施例中，顺序地执行网络的训练(例如，首先训练自动编码器101，然后训练时间预测网络102，最后训练控制器103)。另外，在方法200的一个或多个实施例中，网络(例如，自动编码器101、时间预测网络102和控制器103)的训练完全是无监督的(例如，不需要或不提供标记的数据)。

与没有交织伪样本的相关技术***和方法相比，本公开的***和方法的性能通过从一组3个Atari游戏(RiverRaid、Tutankham和Crazy Climer)中的所有潜在任务生成1000次转出来测试，其是作为用于实例化自控机器人中的***的代理来完成的。然而，本公开的***和方法不限于在自主机器人中使用，并且相反，这些***和方法可以在部署在任何数量的环境或任务中的任何基于代理的***中实例化，其中代理向环境提供动作并且环境在离散时间间隔中向代理提供奖励和观察。

在测试期间，使用一系列随机采样的动作来生成每个随机转出，其中最后一个动作将重复的概率为0.5。这些转出被限制为具有100个样本的最小持续时间和1,000个样本的最大持续时间。对于3个Atari游戏中的每一个，这些转出中的前900个被用于训练数据，以及这些转出中的后100个被保留用于测试。所有图像观察结果都减少到64x 64x 3，并从0重新调整到1。每个游戏被限制在6维动作空间：“无操作(NOOP)”、“激发(FIRE)”、“上(UP)”、“右(RIGHT)”、“左(LEFT)”和“下(DOWN)”。每个游戏通过街机学习环境(ALE)运行，并通过OpenAI健身房界面连接。基于奖励的符号将所有奖励剪裁为-1、0或1，参照ALE游戏结束信号来标记终止状态，并且使用非随机跳帧值4。在整个实验中使用相同的环境参数。

然后，所有训练图像被完全交织以训练自动编码器101，其是VAE，其可以编码为32维潜在空间并从其中解码。使用32的批次大小进行训练，并允许继续直到100,000个样品的300个时期显示测试损失没有降低得大于10^-4。使用该预先训练的自动编码器101网络来编码原始转出到潜在空间中，然后在一系列随机确定的任务暴露上训练时间预测网络102。首先，确定随机训练顺序，使得所有任务具有相同的训练暴露，其为每个任务总共30个时期。这总共30个时期在3个随机确定的训练间隔的过程中被分割，其中每个具有最少3个时期和最大值，该最大值是由对于给定任务剩下的总时期和剩下的训练暴露的数量的比率的底值确定。然后，任务暴露的顺序被随机化，除了第一任务和训练持续时间(其没有伪预演)在随机重复之间总是相同的。时间预测网络102中的每个训练时期是使用转出以100批中长度为32的16个转出完成的。一旦完成了对给定任务暴露的时间预测网络102的训练，则该经训练的时间预测网络102的输出随后被用作对相同任务的控制器103网络的输入。与时间预测网络102的随机训练持续时间相反，控制器103网络中的训练一致地被设置为每任务暴露1百万帧。

在每次任务暴露之后，时间预测网络102和控制器103网络被分别保留(例如，被保存在存储器中)作为时间预测网络的保留副本104和控制器的保留副本105，如图1所示。时间预测网络的保留副本104和控制器的保留副本105然后被用于生成一组1,000个模拟转出或伪样本。在实验期间，在每次任务暴露开始时，将这些模拟转出保存到存储器(例如，RAM)中。然而，在一个或多个实施例中，这些模拟转出可以按需生成，而不是保存在存储器中。然后，这些生成的模拟转出与下一任务的训练集交织。另外，使用时间预测网络的保留副本104和控制器的保留副本105生成来自下一任务的一组1000个真实转出。

然后，在下一个任务暴露时，时间预测网络102在由当前任务暴露确定的持续时间内被更新为1个模拟转出到1个真实转出。在训练时间预测网络102之后，允许控制器103网络探索当前任务。然而，对于来自当前任务的每30,000个帧，使用策略蒸馏来训练一批30,000个模拟帧。在每个任务暴露中继续控制器103的训练，直到已经看到来自真实任务的1e6帧(以上被称为n_step)。

时间预测网络102中的每个输出单元的平均损失被用于评估性能。在时间预测网络102中的性能(即，每输出单元的平均损失)是在每个任务的弃用测试集的转出上评估的，并且在每个训练时期对所有潜在任务进行评估。通过执行与上述相同的训练而不交织伪样本(即，不使用时间预测网络的保留副本104和控制器的保留副本105来生成伪样本)来建立灾难性遗忘的基线测量。图3A描绘了示出三种不同的Atari游戏(RiverRaid、Tutankham和Crazy Climber)中的每一种的时间预测网络102的性能曲线的三个图，并根据本公开的一个实施例将在训练期间模拟转出与真实体验交织时每个任务的性能与在模拟转出不与真实体验交织时每个任务的性能进行比较(例如，利用时间预测网络的保留副本104和控制器的保留副本105来生成伪样本，并将这些伪样本与来自环境的真实样本交织)。在图3A中，实线指示当在训练期间交织模拟转出时时间预测网络102中的性能，虚线指示当没有发生模拟转出的交织时时间预测网络102中的性能(具有‘_nosim'的标签后缀)。每个曲线中的不同线色对应于时间预测网络102何时在特定任务上训练，如图例中所示。图3A中的重叠框指示给定任务何时参与对其自己的数据的训练。如图3A中所示，根据本公开的各种实施例，当没有伪样本与真实转出交织时，明显的灾难性遗忘发生在时间预测网络102中，而当模拟转出与实际转出交织时，出现在时间预测网络102中的损失的相对小的增加。

图3A中的性能度量曲线下的区域在所有训练时期上被积分，并且除以两种实验条件(具有和不具有伪预演的训练)上的总和，以实现在每个任务中的百分比性能总和为一，如图3B所示。在10次重复中计算性能统计，其中对每次重复采样新的随机任务暴露顺序。在图3B中，去饱和的条(即，浅色的条)示出了当没有执行伪预演时时间预测网络102中的损失。另外，图3B中的误差条是平均值的标准误差。

图3C是描绘根据本公开的一个实施例的、对于三种不同的Atari游戏的每一种、当在训练期间模拟转出与真实体验交织时(例如，利用时间预测网络的保留副本104和控制器的保留副本105来生成伪样本，并且将这些伪样本与来自环境的真实样本交织)和当没有发生模拟转出与真实体验的交织时之间的时间预测网络102中的总损失的成对差异的图。

图3B中所示的平均百分比损失图和图3C中所示的成对的百分比损失差图示出了当使用根据本公开的各种实施例的伪预演时(例如，利用时间预测网络的保留副本104和控制器的保留副本105来生成伪样本，并且将这些伪样本与来自环境的真实样本交织)每个任务被显著地更多保留。

图4A-4C描述了在任务曝光上从Atari视频游戏RiverRaid的测试转出的重构。图4A描绘了当在训练中没有使用伪预演时(即，没有发生具有真实体验的模拟转出的交织)来自RiverRaid视频游戏的测试转出的重构，图4B描绘了当在训练中发生伪预演时(例如，使用时间预测网络的保留副本104和控制器的保留副本105来生成伪样本，并且将这些伪样本与来自环境的真实样本交织)来自RiverRaid视频游戏的测试转出的重构，并且图4C描绘了来自环境的真实转出(即，来自RiverRaid视频游戏的真实转出)。在图4A-4C中，网格行对应于给定的展开的时间步长，并且列是在每个任务暴露中训练完成之后生成的特定展开。图4A-4B提供了用于将图3A-3C中描述的损失变化转化为可感知的视觉样本的启发法。图4A示出了在时间预测网络102的训练期间当伪转出(伪样本)没有与实际转出交织时重构样本中灾难性遗忘的明显迹象，而图4B示出了在时间预测网络102的训练期间当伪转出与实际转出交织时重构样本中相对小的损失。

可以利用任何适当的智能硬件、固件(例如专用集成电路)、软件或软件、固件和硬件的组合来实现根据本文描述的本发明的实施例的方法、人工神经网络(例如，自动编码器101、时间预测网络102、控制器103、时间预测网络的保留副本104和/或控制器的保留副本105)和/或任何其它相关的智能设备或部件(例如，智能飞行器或智能交通工具设备或部件)。例如，人工神经网络的各种部件可以形成在一个集成电路(IC)芯片或单独的IC芯片上。此外，人工神经网络的各种部件可在柔性印刷电路膜、带载封装(TCP)、印刷电路板(PCB)上实现，或者形成在一个基板上。此外，人工神经网络的各种部件可以是在一个或多个计算设备中的一个或多个处理器上运行的进程或线程，其执行计算机程序指令并与其它***部件交互以用于执行本文描述的各种智能功能。计算机程序指令存储在存储器中，该存储器可以在使用标准存储设备的计算设备中实现，诸如例如，随机存取存储器(RAM)。计算机程序指令还可存储在其他非暂时性计算机可读介质中，诸如例如CD-ROM、闪存驱动器等。此外，本领域技术人员应当认识到，在不脱离本发明的示例性实施例的范围的情况下，各种计算设备的功能可以被组合或集成到单个计算设备中，或者特定计算设备的功能可以分布在一个或多个其他计算设备上。

尽管已经具体参考本发明的示例性实施例详细描述了本发明，但是本文描述的示例性实施例不是穷举的，也不是要将本发明的范围限制为所公开的具体形式。本发明所属领域和技术的技术人员将理解，在不有意背离如所附权利要求及其等同物中所阐述的本发明的原理、精神和范围的情况下，可以对所描述的结构以及组装和操作的方法进行改变和变化。

Claims

1.一种自主或半自主***，包括：

时间预测网络，其被配置为在第一任务的执行期间处理来自所述***的环境的第一组样本；

控制器，其被配置为处理来自所述环境的所述第一组样本和由所述时间预测网络输出的隐藏状态；

所述时间预测网络的保留副本；以及

所述控制器的保留副本，

其中所述时间预测网络的保留副本和所述控制器的保留副本被配置为生成模拟转出，以及

其中所述***被配置为在第二任务的执行期间将所述模拟转出与来自所述环境的第二组样本交织，以保留用于执行所述第一任务的所述时间预测网络的知识。

2.根据权利要求1所述的***，还包括自动编码器，其中所述自动编码器被配置为将来自所述***的环境的所述第一组样本嵌入到潜在空间中。

3.根据权利要求2所述的***，其中所述自动编码器是卷积变分自动编码器。

4.根据权利要求1所述的***，其中所述控制器是基于随机梯度下降的强化学习控制器。

5.根据权利要求4所述的***，其中所述控制器包括A2C算法。

6.根据权利要求1所述的***，其中所述时间预测网络包括：

长短时记忆(LSTM)层；以及

混合密度网络。

7.根据权利要求1所述的***，其中所述控制器被配置为输出动作分布，并且其中来自所述动作分布的采样动作使所述第一任务上的预期奖励最大化。

8.一种非暂时性计算机可读存储介质，具有存储于其中的软件指令，所述软件指令在由处理器执行时使所述处理器：

在第一任务执行期间，在来自自主或半自主***的环境的第一组样本上训练时间预测网络；

在来自环境的所述第一组样本和由所述时间预测网络输出的隐藏状态上训练控制器；

存储所述时间预测网络的保留副本；

存储所述控制器的保留副本，

从所述时间预测网络的保留副本和所述控制器的保留副本生成模拟转出；以及

在第二任务的执行期间将所述模拟转出与来自所述环境的第二组样本进行交织，以保留用于执行所述第一任务的所述时间预测网络的知识。

9.根据权利要求8所述的非暂时性计算机可读存储介质，其中所述软件指令在由所述处理器执行时进一步使所述处理器使用自动编码器将所述第一组样本嵌入到潜在空间中。

10.根据权利要求9所述的非暂时性计算机可读存储介质，其中所述自动编码器是卷积变分自动编码器。

11.根据权利要求8所述的非暂时性计算机可读存储介质，其中训练所述控制器利用包括具有特定温度的交叉熵损失函数的策略蒸馏。

12.根据权利要求11所述的非暂时性计算机可读存储介质，其中所述特定温度是0.01。

13.根据权利要求8所述的非暂时性计算机可读存储介质，其中所述控制器是基于随机梯度下降的强化学习控制器。

14.根据权利要求13所述的非暂时性计算机可读存储介质，其中所述控制器包括A2C算法。

15.根据权利要求8所述的非暂时性计算机可读存储介质，其中所述时间预测网络包括：

长短时记忆(LSTM)层；以及

混合密度网络。

16.根据权利要求11所述的非暂时性计算机可读存储介质，其中所述软件指令在由所述处理器执行时还使所述处理器从所述控制器输出动作分布，并且其中来自所述动作分布的采样动作使所述第一任务上的预期奖励最大化。

17.一种训练自主或半自主***的方法，所述方法包括：

训练时间预测网络以在第一任务执行期间对来自***环境的第一组样本执行1-时间-步长预测；

训练控制器以基于所述第一组样本和所述时间预测网络的隐藏状态来生成动作分布，其中所述动作分布的采样动作使所述第一任务上的预期奖励最大化；

将所述时间预测网络和所述控制器分别保留为所述时间预测网络的保留副本和所述控制器的保留副本；

在第二任务的执行期间将所模拟转出与来自所述环境的第二组样本交织，以保留用于执行所述第一任务的所述时间预测网络的知识。

18.根据权利要求17所述的方法，其中训练所述控制器利用包括具有0.01的特定温度的交叉熵损失函数的策略蒸馏。

19.根据权利要求17所述的方法，还包括利用卷积自动编码器将在所述第一任务的执行期间收集的所述第一组样本嵌入到潜在空间中。

20.根据权利要求17所述的方法，其中所述控制器是包括A2C算法的基于随机梯度下降的强化学习控制器。

21.根据权利要求17所述的方法，其中所述时间预测网络包括：

长短时记忆(LSTM)层；以及

混合密度网络。