CN110379225B

CN110379225B - 互动式语言习得的***和方法

Info

Publication number: CN110379225B
Application number: CN201910046948.3A
Authority: CN
Inventors: 张海超; 余昊男; 徐伟
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2018-04-12
Filing date: 2019-01-18
Publication date: 2021-08-31
Anticipated expiration: 2039-01-18
Also published as: CN110379225A; JP6722789B2; US20190318648A1; US11074829B2; JP2019185748A

Abstract

本文描述了用于通过交谈环境使用一次性概念学习进行互动式语言习得的***和方法。有监督的语言学习受到主要捕捉训练数据的统计数据的能力的限制，并且难以适应新的场景，也难以灵活地习得新知识而没有低效的再训练或灾难性遗忘。在一个或多个实施方式中，交谈互动用作语言学习和新颖知识习得两方面的自然界面。公开了用于通过互动式交谈进行基础语言学习的联合模仿和强化方法的实施方式。用这种方法训练的代理能够通过询问关于新颖对象的问题来主动获取信息，并在随后的交谈中以一次性的方式使用刚刚学到的知识。与其他方法相比，结果验证了本文公开的实施方式的有效性。

Description

互动式语言习得的***和方法

技术领域

本公开总体上涉及用于计算机学习的***和方法，其可以提供改进的计算机性能、特征和用途。

背景技术

语言是人类最自然的交流形式之一，通常被视为人类智力的基础；因此，智能代理能够使用语言与人类交流也是至关重要的。虽然使用深度神经网络的有监督训练已经得到语言学习方面令人鼓舞的进步，但是它面临的问题是主要捕捉训练数据的统计数据，以及缺乏对新场景的适应性和灵活地习得新知识，而没有低效的再训练或灾难性的遗忘。此外，深度神经网络模型的有监督训练需要大量的训练样本，而许多有趣的应用需要从少量数据中快速学习，这给有监督设置带来了更大的挑战。

因此，需要用于使用互动式设置中的概念学习的互动式语言习得的***和方法，其改进了用于机器学习的计算设备的功能。

背景技术

根据本申请的一方面，提供了一种用于在包括多个时间步的阶段中基于互动的语言学习的计算机实施的方法，所述方法包括：

在时间步，接收包括视觉图像的输入和包括与所述视觉图像相关的零个或更多个单词的自然语言输入；

使用视觉编码器将所述视觉图像编码成视觉特征表示；

使用注意力机制将所述自然语言输入编码成自然语言输入表示；

至少基于所述自然语言输入和先前状态向量在第一神经网络生成状态向量；

经由所述第一神经网络将所述视觉特征表示和所述自然语言输入表示作为视觉模态和句子模态对存储到存储器中；

使所述状态向量通过残余结构化网络以产生控制向量，作为状态输入来调制第二神经网络的行为；以及

使用至少所述控制向量，使用学习到的注意力和内容重要性，在由所述第二神经网络指示的建议的响应部分和使用从所述存储器检索的自然语言输入表示的至少一部分指示的建议的响应部分之间自适应地进行选择，其中使用所述视觉特征表示作为视觉钥匙来检索所述自然语言输入表示，从而形成对应于所述输入的响应。

根据本申请的另一方面，提供了一种用于经过训练的代理使用习得的语言能力和发展的一次性学习能力的计算机实施的方法，所述方法包括：

接收包括视觉图像的输入和包括与所述视觉图像相关的零个或更多个单词的自然语言输入；

使用视觉编码器将所述视觉图像编码成视觉钥匙；

基于所述状态向量产生控制向量以调制第二神经网络的行为；以及

使用至少部分由所述控制向量控制的融合门，在由所述第二神经网络指示的建议的响应部分和使用从存储器检索的自然语言输入表示的至少一部分指示的建议的响应部分之间自适应地进行选择，其中使用所述视觉钥匙检索所述自然语言输入表示，从而形成对应于所述输入的响应，所述存储器存储至少一个视觉模态和句子模态对，每个视觉模态和句子模态对包括存储的视觉特征表示和存储的自然语言输入表示。

根据本申请的再一方面，提供了一种用于使用一次性视觉概念学习的互动式语言习得的***，所述***包括：

视觉编码器，用于将视觉图像编码成视觉特征表示；

第一神经网络，用于至少基于包括与所述视觉图像相关的零个或更多个单词的自然语言输入和使用历史信息的先前状态向量来生成状态向量；

存储器，其存储至少一个视觉模态和句子模态对，每个视觉模态和句子模态对包括视觉特征表示和自然语言输入表示；

残余结构化网络，其接收所述状态向量以产生控制向量；以及

第二神经网络，其接收所述控制向量以用于行为调制，所述第二神经网络在由所述第二神经网络指示的建议的响应部分和使用从所述存储器检索的自然语言输入表示的至少一部分指示的建议的响应部分之间自适应地进行选择，其中使用所述视觉特征表示作为视觉钥匙来检索所述自然语言输入表示，从而形成对应于所述输入的响应。

附图说明

将参考本公开的实施方式，其示例可以在附图中示出。这些图式希望为说明性的而非限制性的。虽然大体上在这些实施方式的上下文中描述本公开，但是应当理解，本公开的范围并不旨在限于这些特定实施方式。图式中的项目可能未按比例绘制。

图1图示了根据本文件的实施方式的用于互动式语言和一次性概念学习的示例***谈游戏。

图2示出了根据本文件的实施方式的用于互动式语言和一次性概念学习的过程。

图3图示了根据本文件的实施方式的用于实施互动式语言和一次性概念学习的网络结构。

图4示出了根据本文件的实施方式的用于利用网络结构实施一次性概念学习的过程。

图5图示了根据本文件的实施方式的用于实施互动式语言和一次性概念学习的解释器RNN和扬声器RNN。

图6示出了根据本文件的实施方式的利用记忆增强神经网络进行模仿的方法。

图7示出了根据本文件的实施方式的用于上下文自适应行为塑造的方法。

图8图示了根据本文件的实施方式的没有图像变化的用于单词级任务的训练期间的奖励的演变。

图9示出了根据本文件的实施方式的没有图像变化的单词级任务的测试性能。

图10示出了根据本文件的实施方式在不同的测试图像变化率下对水果数据集上的单词级任务的测试成功率和奖励。

图11图示了根据本文件的实施方式的在新颖的类上的建议方法的示例性结果。

图12示出了根据本文件的实施方式的具有图像变化的句子级任务的测试性能。

图13A至图13D示出了根据本文件的实施方式的来自不同方法的示例性对话。

图14示出了根据本文件的实施方式的计算设备/信息处理***的简化框图。

具体实施方式

在以下描述中，出于解释目的，阐明具体细节以便提供对本公开的理解。然而，将对本领域的技术人员显而易见的是，可在没有这些细节的情况下实践本公开。此外，本领域的技术人员将认识到，下文描述的本公开的实施方式可以以各种方式(例如过程、装置、***、设备或方法)在有形的计算机可读介质上实施。

附图中示出的组件或模块是本公开示例性实施方式的说明，并且意图避免使本公开不清楚。还应理解，在本论述的全文中，组件可描述为单独的功能单元(可包括子单元)，但是本领域的技术人员将认识到，各种组件或其部分可划分成单独组件，或者可整合在一起(包括整合在单个的***或组件内)。应注意力，本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。

此外，附图内的组件或***之间的连接并不旨在限于直接连接。相反，在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外，可使用另外或更少的连接。还应注意力，术语“联接”、“连接”、或“通信地联接”应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。

在本说明书中对“一个实施方式”、“优选实施方式”、“实施方式”或“多个实施方式”的提及表示结合实施方式所描述的具体特征、结构、特性或功能包括在本公开的至少一个实施方式中，以及可包括在多于一个的实施方式中。另外，在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。

在本说明书的各个地方使用某些术语目的在于说明，并且不应被理解为限制。服务、功能或资源并不限于单个服务、单个功能或单个资源；这些术语的使用可指代相关服务、功能或资源的可分布或聚合的分组。

术语“包括”、“包括有”、“包含”和“包含有”应理解为开放性的术语，并且其后任何列出内容都是实例，而不旨在限于所列项目。本文所使用的任何标题仅是为了组织目的，并且不应被用于限制说明书或权利要求的范围。本专利文献中提到的每个参考文献以其全文通过引用并入本文。

此外，本领域的技术人员应认识到：(1)某些步骤可以可选地执行；(2)步骤可不限于本文中所阐述的特定次序；(3)某些步骤可以以不同次序执行；以及(4)某些步骤可同时地进行。

A.引言

语言是人类最自然的交流形式之一，通常被视为人类智力的基础；因此，智能代理能够使用语言与人类交流也是至关重要的。虽然使用深度神经网络的有监督训练已经得到语言学习方面的令人鼓舞的进步，但是它面临的问题是主要捕捉训练数据的统计数据，以及缺乏对新场景的适应性和灵活地习得新知识而没有低效的再训练或灾难性的遗忘。此外，深度神经网络模型的有监督训练需要大量的训练样本，而许多有趣的应用需要从少量数据中快速学习，这给有监督设置带来了更大的挑战。

相比之下，人类学习的方式与有监督设置大不相同。首先，人类对世界采取行动，并从其行动的结果中学习。而对于诸如移动的机械行动，结果主要遵循几何和机械原理，对于语言，人类通过说话来行动，结果通常是来自交谈伙伴(即老师)的口头和其他行为反馈(例如点头)形式的响应。这些类型的反馈通常包含关于如何在后续交谈中提高语言技能的信息信号，并在人类语言习得过程中发挥重要作用。其次，人类展示了从少量数据中学习新概念的杰出能力。仅仅从一个例子来看，儿童似乎能够做出推论，并在概念之间划定合理的界限，这证明了一次性学习的能力。

人类的语言习得过程和一次性学习能力都是令人印象深刻的人类智能的表现，并且对设计计算语言学习的新颖设置和算法带来启发。在一个或多个实施方式中，交谈被用作语言学习的互动环境和习得新知识的自然界面。本文呈现了使用一次性概念学习能力的互动式语言习得方法。这些方法让代理可以从零开始学习基础语言，习得主动寻找和记忆关于新颖对象的信息的可转移技能，并发展一次性学习能力，这些完全通过与老师的交谈互动。

B.一些相关工作

有监督的语言学习。基于深度神经网络的语言学习在许多应用领域取得了巨大成功，包括机器翻译、对话生成、图像字幕和视觉问答。为了进行训练，需要大量标签数据，这需要付出巨大努力来收集。此外，这种设置基本上捕捉训练数据的统计数据，而不尊重语言学习的互动性质，使得它在没有再训练或遗忘的情况下习得新知识的灵活性降低。

序列强化学习。近来的一些研究使用强化学习(RL)来根据特定的度量标准调整经过预先训练的语言模型的性能。本专利文件中的工作也与自然语言行动空间中的RL相关，并有动机探索通过纯文本对话的语言学习。然而，在上述一些工作中，提供了候选序列集合，并且行动是从该集合中选择一个。这里的一个主要焦点是从零开始学习语言：代理必须学习生成序列行动，而不是简单地从提供的候选集合中选择一个。

交流和语言的出现。最近的研究调查了学习交流和发明语言。出现的语言需要人类通过后处理来解释。然而，这里的实施方式旨在从理解和生成的双重角度实现语言学习，并且无需任何后处理，就容易理解代理的说话行动。一些关于语言学习的研究使用了猜测者-应答者设置，其中猜测者试图通过向应答者问问题来收集额外的信息，从而达到最终目标(例如分类)。这些工作试图优化为了帮助猜测者达到最终目标而询问的问题，而这里的一个或多个重点是可转移的说话和一次性能力。

一次性学习和主动学习。近来的一些工作中已有人研究了一次性学习。记忆增强网络在外部存储器中存储与标注真实分类标签混合的视觉表示，用于一次性学习。在图像呈现之后总是提供分类标签；因此，代理以被动的方式从老师那里接收信息。有些工作展示了在主动学习方面的努力，使用了没有外部存储器的Vanilla递归神经网络(RNN)。这两条研究线索都只关注图像分类，这意味着直接提供分类标签用于记忆。相比之下，本公开的目标是通过交谈互动的语言和一次性学习，并且学习者必须学习从老师的句子中提取重要信息来记忆。

C.交谈游戏的实施方式

在一个或多个实施方式中，构建了受到从认知科学研究婴儿语言发展的实验启发的交谈游戏。图1示出了根据本文件的实施方式的用于互动式语言和一次性概念学习的示例***谈游戏。交谈游戏100为代理(下文中与学习者互换使用的术语)学习语言和发展一次性学习能力提供了环境。这里的一次性学习意味着在阶段期间，没有进一步的训练出现于行为者，并且预计在老师只教了一次之后，它会正确回答老师关于从未见过的类的新颖图像的问题，如图1所示。交谈游戏100包括训练期110和训练期110之后的测试期120。训练期110和/或测试期120可以包括一个或多个阶段。在训练阶段S_l中，老师可能会问问题、回答学习者的问题、发表声明、或者不说话。老师还根据学习者的响应提供奖励反馈，作为鼓励(劝阻)。学习者在通过解释器132和扬声器134解释老师的句子和生成响应之间交替。如图1所示，学习者一开始几乎无法说任何有意义的话。通过一个或多个训练阶段，它可以产生对于互动的有意义的响应。在训练后的测试期120中，当面对樱桃的图像(这是学习者在训练期间从未见过的新颖的类)时，学习者可以问关于它的问题(“它是什么”)，并且仅仅被教了一次之后就为樱桃的另一个例子生成正确的陈述(“这是樱桃”)。

为了在这个游戏中取得成功，代理必须学会1)通过生成句子说话；2)只需一次接触就能提取和记忆有用的信息，并在后续交谈中使用该信息；和3)根据上下文和它自己的知识自适应地行动(例如，询问关于未知对象的问题和回答关于已知事物的问题)；所有这些都是通过与老师互动来实现的。这使得所公开的交谈游戏截然不同于其他游戏，在其他游戏中，代理不能说话，或者是通过从提供的集合中选择候选而不是自己生成句子来“说话”，或者游戏主要关注慢速学习，而缺乏一次性学习。

图2示出了根据本文件的实施方式的用于互动式语言和一次性概念学习的过程。在步骤205中，阶段(S_l)在互动期间在该游戏中随机实例化。测试阶段是用单独的数据集构建的，该数据集具有在训练期间以前从未出现过的用于评估语言和一次性学习能力的概念。

在步骤210中，在阶段中，老师随机选择对象，并通过从下面各项随机选择一种互动方式与学习者就该对象进行互动：1)提出问题(例如，“这是什么”)，2)不说话(即，“”)，或3)做出陈述(例如，“这是猴子”)。

在步骤215中，学习者基于老师选择的互动方式与老师相应地进行互动。例如，当老师问问题或什么也不说：i)如果学习者提出问题，老师会提供关于被问到的对象的陈述(例如，“它是青蛙”)，并给予提问奖励(例如+0.1)；ii)如果学习者不说话，老师仍然会提供答案(例如，“这是大象”)，但是会给予错误回答奖励(例如-1)，以劝阻学习者保持沉默；和iii)对于来自学习者的所有其他不正确的响应，老师将提供错误回答奖励，并继续到下一个随机对象进行互动。当老师生成陈述时，如果生成了正确的陈述，学习者将不会得到任何奖励，否则将会得到错误回答奖励。

在步骤220中，如果学习者正确互动，诸如正确回答了老师的问题、当老师没说话时生成正确的陈述(收到正确回答奖励+1)，或者当达到最大互动步骤数时，阶段结束。

如果学习者在整个阶段中表现正确，则取得了成功：提出关于新颖对象的问题，当被提问时生成回答，当老师对阶段中教授的对象不说话时做出陈述。否则就是失败。

D.通过联合模仿和强化的互动式语言习得的实施方式

动机。目标是通过与老师交谈和从老师的反馈中改进来学习交谈和发展一次性学习能力。这里的一个或多个实施方式使用联合模仿和强化方法来实现这个目标。模仿有助于代理发展生成合理句子的基本能力。由于学习是通过观察老师在交谈过程中的行为来进行的，所以代理本质上是从第三方的角度模仿老师，而不是模仿正在与老师交谈的专业代理。在交谈过程中，代理会感知句子和图像，而不会对ground truth回答进行任何明确标注，并且它必须学会理解原始感知，提取有用的信息，并保存起来，以便以后在生成对老师问题的回答时使用。虽然纯粹模仿老师很有吸引力，但以这种方式训练的代理只会发展回声行为，即模拟。强化利用来自老师的确认性反馈，通过调整行动策略来学习自适应地超越模拟进行交谈。它使学习者能够使用所习得的说话能力，并根据奖励反馈进行调适。这类似于一些关于婴儿语言学习过程的观点，即婴儿通过与父母的反复试错来使用习得的说话技能，并根据说话行为的结果来改进。婴儿在没有听力的情况下无法充分发展说话能力、而且难以与经过训练的鹦鹉进行有意义的交谈的事实，意味着模仿和强化在语言学习中的重要性。

公式化。在实施方式中，代理的响应可以被建模为来自可能序列上的概率分布的样本。具体来说，对于一个阶段，给定视觉输入v^t和交谈历史

代理的响应a^t可以通过从说话行动的分布

中采样来生成。代理通过输出话语a^t与老师互动，并在下一步骤中接收老师的反馈，其中用w^t+1s句子作为口头反馈，并且r^t+1作为奖励反馈(根据a^t，用正值作为鼓励，负值作为劝阻，如C节中所述)。目标的核心是学习

这个问题被公式化为成本函数

(它是模仿成本函数

和强化成本函数

的总和)的最小化，如下所示：

其中

是在来自老师的所有句子W上的预期，γ是奖励折扣因数，并且[γ]^t表示γ上的求幂。当模仿项直接学习预测性分布

时，它通过它们之间的参数共享对

做出贡献。

架构。在一个或多个实施方式中，学习者包括四个主要组件：外部存储器310、解释器320、扬声器330、控制器340和视觉编码器350，如图3所示。外部存储器310能灵活地存储和检索信息，使得它成为所公开的用于一次性学习的网络的组件。解释器320负责解释老师的句子，从感知信号中提取信息，并将该信息保存到外部存储器。扬声器330负责通过对外部存储器的读取访问来生成句子响应。响应可以是利用存储在外部存储器中的信息来询问信息的问题或回答老师问题的陈述。控制器340调节扬声器的行为以根据上下文(例如，学习者的知识状态)生成响应。视觉编码器350获取输入图像并输出视觉特征表示。在一个或多个实施方式中，视觉特征表示是视觉特征向量、视觉特征矩阵或其他适用格式。在一些实施方式中，它被实施为卷积神经网络(CNN)，随后是全连接(FC)层。对于新颖的图像输入，从新颖的图像计算的视觉特征向量k_v被保存为视觉内容c_v(视觉模态)，连同用句子内容提取器从老师的句子输入中提取的句子内容c_s(句子模态)，注意力机制与视觉模态c_v相关联，作为<c_v，c_s>对被保存到外部存储器中。在一个或多个实施方式中，句子内容c_s是单词嵌入向量的混合物。在一些实施方式中，对于具有句子输入的图像输入，内容重要性门g_mem用于自适应地控制内容c(c_v，c_s)是否应该被写入存储器。存储器写入操作的更多细节可参考H.2节和等式(5)-(7)。应当理解，图3中所示的句子内容提取器是为了方便展示将<c_v，c_s>作为多模态对保存到存储器310中的过程而示出的。在一个或多个实施方式中，句子内容提取器是解释器的一部分。

图4示出了根据本文件实施方式的利用网络结构实施一次性概念学习的过程。在步骤405中，在时间步t，解释器使用解释器RNN(在图5中图示，在下文中也称为第一RNN)将包括来自老师的零个或更多单词以及历史交谈信息的自然语言输入w^t编码成状态向量

在一些实施方式中，自然语言输入是自然语言句子。应当注意，提到“句子”应当理解为是指任何包括零个或更多个单词的集合，无论它们是否形成正式意义上的合适、完整的句子；这里使用的“句子”也不需要正确的大写和/或标点符号。零单词对应于当老师呈现图像并且不说话的情况。在图5中，符号<bos>表示句子的开头(即自然语言短语的开头)，符号<eos>表示句子的结尾(即自然语言短语的结尾)。视觉感知也被编码并用作从外部存储器中检索信息的钥匙。在实施方式中，解释器RNN将用从感知输入提取的重要性权重信息更新外部存储器。在步骤410中，使

通过残留结构化网络，该残留结构化网络是用能够学习控制器f(·)增强的身份映射，用于产生控制向量c^t。在实施方式中，可以通过将控制器的输出组合(例如相加)到控制器的输入

来获得控制向量c^t。在步骤415中，控制向量c^t被用作扬声器RNN(在图5中图示，在下文中也称为第二RNN)的初始状态以生成响应a^t。在步骤420中，扬声器RNN的最终状态

被用作下一时间步中解释器RNN的初始状态。

图5图示了根据本文件实施方式的用于实施互动式语言和一次性概念学习的解释器RNN(或第一RNN)510和扬声器RNN(或第二RNN)520。在实施方式中，解释器RNN 510和扬声器RNN 520共享参数，并且都包括用于操作的多个融合门。如图5所示，解释器RNN 510接收在时间步t-1的RNN的最后状态的输入

和在解释器中在时间步t从外部存储器的句子模态下的句子内容读出的向量

扬声器RNN 520中的融合门接收在扬声器中在时间步t的控制向量c^t的输入和从外部存储器的句子模态下的句子内容读出的向量

在等式(4)和(14)中定义了存储器读取。

1.回声行为的利用记忆增强神经网络的模仿的实施方式

老师的说话方式为代理提供了模仿的来源。例如，构成句子的语法是代理可以从老师的句子中学习到的有用技能，这对解释器和扬声器可能都有好处。模仿是通过使用解释器预测老师未来的句子以及解释器和扬声器之间的参数共享来实现的。

图6示出了根据本公开实施方式的利用记忆增强神经网络进行模仿的方法。为了预测，以图像v^t以及来自老师和学习者的前面的句子{w¹，a¹，…，w^t-1，a^t-1}为条件的下一句子w^t的概率可以表示为：

其中

是在时间步t-1的RNN的最后状态，作为

的总结(参见图3)，并且i索引句子中的单词。

在一个或多个实施方式中，第t个句子中第i个单词的概率用RNN建模，其中直到t的句子和第t个句子中直到i的单词被固定长度的状态向量

捕捉(605)。在一个或多个实施方式中，为了合并学习到并存储在外部存储器中的知识，基于以下各项经由融合门g自适应地生成下一单词(610)：i)来自RNN的状态的下一单词的预测分布

用于捕捉句子的句法结构，以及ii)来自外部存储器的信息，用于代表先前学习到的知识：

其中

并且P_r＝softmax(E^Tr)。

是单词嵌入表，其中d是嵌入尺寸，k是词汇量大小。r是使用视觉钥匙从外部存储器读出的向量，如下一节中详述的。f_MLP(·)是多层的多层感知器(MLP)，用于桥接RNN状态空间和单词嵌入空间之间的语义间隙。在实施方式中，融合门g计算为

其中c是置信度得分c＝max(E^Tr)，并且良好学习的概念按照设计应该具有高分(G节)。在步骤615中，学习者或代理通过将老师句子的预测误差最小化来模仿。

多模态关联记忆实施方式。在一个或多个实施方式中，使用多模态存储器来存储每种模态的视觉(v)和句子(s)特征，同时保留它们之间的对应关系。与单模态记忆相比，在这种设计下，信息组织更加结构化，并且跨模态检索是直接的。在给定了从当前视觉图像计算的视觉钥匙K_v(参照G节)的情况下，可以从存储器中检索相应的向量或句子特征为：

r←READ(K_v，M_v，M_s) (4)

在一个或多个实施方式中，M_v和M_s是用于视觉和句子模态的具有相同数量的插槽(列)的存储器。存储器读取可以实施为r＝M_sα，其中α是通过计算K_v和M_v的插槽之间的余弦相似度借由视觉模态获得的软读取权重。

存储器写入可能类似于神经图灵机，但是具有内容重要性门g_mem来自适应地控制内容c是否应该写入存储器：

M_m←WRITE(M_m，c_m，g_mem)，m∈{v，s} (5)

对于视觉模态

对于句子模态，必须从老师生成的句子中选择性地提取c_s。在一个或多个实施方式中，使用注意力机制通过c_s＝Wγ实现这一点，其中W表示矩阵，其中列是句子中的所有单词的嵌入向量。γ是表示句子中每个单词的相对重要性的归一化注意力向量，通过句子表示向量和每个单词的上下文向量之间的余弦相似度来测量，使用双向RNN来计算。在实施方式中，标量值内容重要性门g_mem被计算为来自老师的句子的函数，这意味着要写入存储器的内容的重要性取决于内容本身(关于更多细节，参见H节)。存储器写入可以通过擦除和添加操作来实现：

表示阿达玛(Hadamard)乘积，并且写入位置β可以用最近最少使用访问机制来确定。

2.通过强化学习进行上下文自适应行为塑造的实施方式

模仿培养了生成回声行为的基本语言能力，但这不足以根据上下文和学习者的知识状态与老师自适应地进行交谈。在实施方式中，通过使用RL优化策略，利用奖励反馈来塑造代理的行为。给定交谈历史

和视觉输入v^t，扬声器会生成代理的响应a^t，这可以被建模为来自所有可能序列上的分布的样本：

由于

可以由解释器RNN编码为

因此对应于扬声器RNN的行动策略可以表示为

为了利用通过解释器经由模仿学习到的语言技能，可以通过用RNN实施扬声器，与解释器RNN共享参数，但是用由控制器网络调制的条件信号来生成句子(图3)：

使用控制器f(·)进行调制的原因是，基本语言模型仅向学习者提供生成句子的回声能力，但不一定提供根据上下文的自适应行为(例如，当面对新颖对象时提问，并提供根据其自身的知识状态对于先前学习的对象的回答)。由于参数共享，在没有任何附加模块或学习信号的情况下，代理的行为将与老师的行为相同；因此，代理难以学会以自适应的方式说话。

图7示出了根据本文件实施方式的用于上下文自适应行为塑造的方法。在步骤705中，为了从说话行动的结果中学习，通过将强化成本函数

所示的预期未来奖励最大化来调整行动策略

由于等式(8)中涉及不可微分的采样操作，所以在步骤710中，在强化模块中，使用策略梯度定理来推导用于更新

的梯度：

其中

是使用值网络V(·)估计的优势。模仿模块通过实施具有交叉熵损失的模仿成本函数

并相对于预测分布

中的参数将其最小化来做出贡献，这些参数是与

共享的。来自模仿的训练信号无需通过控制器就可以进行快捷连接。有关f(·)、V(·)和训练的更多详细信息，请参见G节。

E.一些实验

应当注意，这些实验和结果是以说明的方式提供的，并且是在特定条件下使用一个或多个具体实施方式执行的；因此，这些实验及其结果都不应用于限制本专利文件的公开范围。

在本公开中，实验是与基线方法进行比较执行的。实验首先用单词级的任务进行，在该任务中，老师和学习者每次交流一个单词。然后研究了图像变化对概念学习的影响。进一步对更具挑战性的句子级任务执行了评估，在该任务中，老师和代理以不同长度的句子的形式交流。

设置。为了评估学习可转移能力而不是适应特定数据集的能力的性能，使用动物数据集进行训练，并对水果数据集测试经过训练的模型(图1)。F节提供了关于数据集的更多细节。每个阶段包括两个随机采样的类，并且互动步骤的最大数量是六个。

基线。比较了以下方法：

·强化：具有与本文模型实施方式相同网络结构的基线模型，并且仅使用RL进行训练，即将

最小化；

·模仿：回归编码器解码器模型，并且通过模仿经过训练(将

最小化)；

·模仿+高斯RL：在控制向量c^t的潜在空间中使用高斯策略的联合模仿和强化方法。该策略通过修改行动策略所依赖的c^t来改变。

1.单词级任务

在这个实验中，重点放在单词级任务上，这为分析和理解不同算法的潜在行为提供了机会，同时避免了分散注意力的因素。需要注意的是，虽然老师每次都会说一个单词，但是学习者仍然必须学习生成以句尾(例如，<eos>)符号结尾的完整句子。

图8示出了在不同方法的训练期间奖励的演变曲线。观察到强化805的进展很小，主要是因为在序列行动的大空间中难以探索。模仿810在训练期间获得比强化更高的奖励，因为它可以通过生成诸如问题之类的合理句子来避免一些惩罚。模仿+高斯RL 815比模仿和强化都获得更高的奖励，这表明RL组件将行动策略向更高的奖励重塑。然而，由于高斯策略在潜在的特征空间中间接优化了行动策略，因此对于探索和学习来说效率较低。建议820是指这里建议的模型的示例，在训练期间实现了最高的最终奖励。

使用动物数据集训练模型，并在水果数据集上对其进行评估；图9总结了1K个测试阶段中的成功率和平均奖励。正如可以观察到的，强化905由于其内在的学***均奖励(+1.1)(测试奖励高于训练奖励，主要是因为探索训练中的行动采样)，其性能远远超过了所有基线方法。从这个实验中，明显看出，正确使用强化的模仿对于实现自适应行为(例如，主动提出关于新颖对象的问题并生成关于所学对象的回答或陈述)是重要的。

2.有图像变化的学习

为了评估类内图像变化对一次性概念学习的影响，对模型进行了有图像变化和无图像变化的训练，并在测试期间比较它们在不同图像变化率下的性能(阶段中存在新颖图像例子的可能性)，如图10所示。图10示出了不同方法在不同变化率下的成功率和奖励，这些方法包括强化1005、模仿1010、模仿+高斯RL 1015和建议实施方式1020。对于在动物数据集上训练的模型，在不同的测试图像变化率下，在水果数据集上进行了测试，变化率为0.5(实线)以及没有变化(虚线)。

观察到，在没有图像变化的情况下训练的模型的性能随着变化率的增加而显著下降。还评估了在0.5变化率下训练的模型的性能。图10清楚地显示，尽管也存在性能下降，这是符合预期的，但是性能会更逐渐地下降，这表明图像变化对于学习一次性概念的重要性。

在一个或多个实施方式中，根据本专利文件的实施方式，采样的训练和测试图像由使用在没有图像变化和有图像变化的情况下训练的视觉编码器提取的它们的相应特征来表示。在一个或多个实施方式中，从动物数据集和水果数据集随机采样十个类，其中使用在动物数据集上没有图像变化和有图像变化的情况下训练的视觉编码器提取特征。当有图像变化地训练时，在特征空间中出现视觉上相似的概念的集群，这表明获得了更具辨别性的视觉编码器来学习可概括的概念。

3.句子级任务

在本公开中，进一步评估了句子级任务的模型。老师的句子有许多变化，句子长度从1到5不等。节F中展示了老师的例句。这个任务在两个方面比单词级任务更具挑战性:i)信息处理更困难，因为学***均奖励方面的比较，这些方法包括强化1205、模仿1210、模仿+高斯RL 1215和建议1220，建议1220是指示例性实施方式。从图12中可以观察到，在成功率(82.8％)和平均奖励(+0.8)两方面，建议1220再次优于所有其他比较的方法，这证明了它的有效性，即使对于更复杂的句子级任务也是如此。

当应用于测试集时，本公开还可视化了建议方法的信息提取和自适应句子构成过程。图11图示了根据本文件实施方式的建议方法在新颖类上的示例性结果。学习者可以询问新类的情况，并使用解释器通过单词级注意力γ(较深的颜色对应于较高的注意力)和内容重要性门g_mem1120联合地从老师的句子1110中提取有用的信息。扬声器使用融合门g(在图5中示出为530)自适应地在来自扬声器RNN的信号(小g)1130和来自外部存储器的信号(大g)1140之间切换，以生成句子响应。如图11所示，代理学习从老师的句子中提取有用的信息，并使用内容重要性门来控制什么内容被写入外部存储器。具体来说，包含对象名称的句子具有更大的g_mem值，并且与句子中的其他单词相比，对应于对象名称的单词具有更大的注意力权重γ。γ和g_mem的组合效应表明，对应于对象名称的单词被写入外部存储器的可能性更高。代理还成功地学会使用外部存储器来存储从老师的句子中提取的信息，将它与来自RNN的信号自适应地融合(捕捉句法结构)，并生成包含新概念的完整句子。当生成诸如“什么”、“我”、“能”和“看到”之类的单词时，融合门g的值较小，这意味着它主要依赖于来自RNN的信号来生成(参照等式(3)和图11)。相反，当生成对象名称(例如，“香蕉”和“黄瓜”)时，融合门g具有较大的值，这意味着更加重视来自外部存储器的信号。该实验表明，建议的方法适用于语言学习和一次性学习的更复杂的句子级任务。更有趣的是，它学习了能够容易理解的可解释的操作过程。图13A至图13D中展示了更多的结果，包括来自不同方法的示例对话。

F.数据库的实施方式和例句

表1：两个数据集的对象类

表2：来自老师的例句

动物数据集总共包含40个动物类，有408个图像，平均每类大约有10个图像。水果数据集总共包含16个类和48个图像，每个类有3个图像。表1总结了对象类和图像。表2列出了老师在不同情况(提问、回答和不说话)下的例句。

G.网络细节的实施方式

以下提供了示例性实施方式。然而，应当指出，各种网络组件可以被不同地配置或者使用不同的子组件，但是仍然在本公开的精神和范围内工作。

1.视觉编码器

在实施方式中，视觉编码器获取输入图像并输出视觉特征表示。在一个或多个实施方式中，视觉特征表示是视觉特征向量、视觉特征矩阵或其他适用格式。它可以被实施为卷积神经网络(CNN)，随后是全连接(FC)层。在一个或多个实施方式中，每个CNN具有四层。每层有32、64、128、256个大小为3×3的过滤器，后面是池大小为3、跨距为2的最大池。ReLU激活可用于所有层。CNN之后使用输出尺寸为512和1024的两个FC层，分别具有ReLU和线性激活。

2.解释器和扬声器

解释器和扬声器分别用解释器RNN和扬声器RNN实施，它们共享参数。可以使用状态尺寸为1024的门控回归单元来实施RNN。在输入到RNN之前，在一个或多个实施方式中，首先将单词ID投影到尺寸为1024的单词嵌入向量，随后是具有ReLU激活的两个FC层和具有线性激活的第三FC层，所有这些都具有1024的输出尺寸。

3.融合门

在实施方式中，融合门g被实施为具有ReLU激活的两个全连接(FC)层和具有sigmoid(S型)激活的第三FC层。每层的输出尺寸分别为50、10和1。

4.控制器

控制器f(·)与身份映射一起形成了残留结构化网络，如下所示：

c＝h+f(h) (11)

在实施方式中，f(·)被实施为具有ReLU激活的两个FC层和具有线性激活的第三FC层，它们都具有1024的输出尺寸。

5.值网络

在实施方式中，引入值网络来估计预期的累积未来奖励。它以解释器RNN的状态向量h_I和置信度c为输入。它可以被实施为具有ReLU激活并且输出尺寸分别为512和204的两个FC层。第三层可以是具有线性激活并且输出尺寸为1的另一FC层。它通过将成本最小化来训练，具体如下：

V′(·)表示值网络的目标版本，在定期从V(·)复制之前，它的参数保持不变。

6.置信度得分

置信度得分c定义如下：

c＝max(E^Tr) (13)

其中

是单词嵌入表，d是嵌入尺寸，k是词汇量。

是从外部存储器的句子模态中读出的向量，如下所示：

r＝M_sα (14)

其中α是通过计算k_v和M_v的插槽之间的余弦相似度通过视觉模态获得的软读取权重。存储在存储器中的内容是从老师的句子{w₁，w₂，…，w_i，…，w_n}中提取出来的(详见H节)：

c_s＝[w₁，w₂，…，w_i，…，w_n]γ (15)

其中

表示从单词w_i的单词嵌入表E中提取的嵌入向量。因此，对于具有对信息提取有效的γ和对信息检索有效的α的良好学***均值，从而得到较小的c值。

H.句子内容提取和重要性门的实施方式

下面提供了示例性实施方式。然而，应当指出，各种网络组件可以被不同地配置或者使用不同的子组件，但是仍然在本公开的精神和范围内工作。

1.内容提取

在实施方式中，注意力方案用于从要写入存储器的句子中提取有用信息。给定句子w＝{w₁，w₂，…，w_n}和相应的单词嵌入向量{w₁，w₂，…，w_n}，首先使用双向RNN生成句子的汇总，得出前向遍次(pass)的状态

和后向遍次的状态

汇总向量可以是前向遍次的最后状态和后向遍次的第一状态的级联：

在一个或多个实施方式中，上下文向量是单词嵌入向量和向前和向后遍次的状态向量的级联：

单词级注意力γ＝[γ₁，γ₂，…，γ_n]可以计算为变换句子汇总向量s和每个上下文向量

之间的余弦相似度：

在一个或多个实施方式中，两个MLP都包含两个输出尺寸为1024的FC层，并且每个层分别具有线性和双曲正切激活。要写入存储器的内容c_s可以计算为：

c_s＝Wγ＝{w₁，w₂，…，w_n}γ (19)

2.重要性门

在实施方式中，内容重要性门被计算为g_mem＝σ(f_MLP(s))，这意味着要写入存储器的内容的重要性取决于来自老师的句子。MLP可以包含两个FC层，其具有ReLU激活并且输出尺寸分别为50和30。可以使用另一个具有线性激活的FC层，并且可以使用输出尺寸20。在实施方式中，输出层是具有输出尺寸1和sigmoid激活σ的FC层。

I.训练细节的实施方式

在实施方式中，用衰减的Adagrad训练网络。使用批大小16、学习率1×10^-5和权重衰减率1.6×10^-3。还利用经验回放。奖励折扣因数γ为0.99，单词嵌入尺寸d为1024，字典大小k为80。视觉图像大小为32×32，生成句子的最大长度为6，存储器大小为10。对于建议的实施方式方法，在探索训练期间使用采样操作来生成句子，而在测试期间使用最大操作。最大操作用在对于所有基线方法的训练和测试中。单词嵌入向量被初始化为随机向量，并在训练期间保持不变。

J.关于新颖数据的示例对话

在实施方式中，在动物数据集上训练模型，并在水果数据集上执行评估。图13A至图13D示出了不同方法的示例对话。据观察，强化会产生学习者保持沉默的策略。模仿和模仿+高斯RL都可以生成合理的句子，但不能根据上下文自适应地说话。建议可以根据上下文自适应地说话，询问关于新颖的类的信息，并且在老师只教了一次之后回答问题。

K.一些结论

在本专利文件中，提出了一次性视觉概念学习的基础语言习得的实施方式。该结果是使用记忆增强网络纯粹通过与老师互动以及通过联合模仿和强化学习从互动过程中自然产生的反馈中学习来实现的。实验结果表明，模型实施方式对于跨几种不同设置的一次性学习的语言习得是有效的。建议的实施方式可进一步应用于更现实的环境，并且跨阶段的持久记忆可用于终身学习设置中。

I.***实施方式

在实施方式中，本专利文献的方面可涉及、可包括一个或多个信息处理***/计算***或者可在一个或多个信息处理***/计算***上实施。计算***可包括可操作来计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、智能或数据的任何手段或手段的组合。例如，计算***可为或可包括个人计算机(例如，膝上型计算机)、平板电脑、平板手机、个人数字助理(PDA)、智能手机、智能手表、智能包装、服务器(例如，刀片式服务器或机架式服务器)、网络存储设备、摄像机或任何其他合适设备，并且可在大小、形状、性能、功能和价格方面改变。计算***可包括随机存取存储器(RAM)、一个或多个处理资源(例如中央处理单元(CPU)或硬件或软件控制逻辑)、ROM和/或其他类型的存储器。计算***的另外组件可包括一个或多个盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出(I/O)设备(例如键盘、鼠标、触摸屏和/或视频显示器)。计算***还可包括可操作为在各种硬件组件之间传输通信的一个或多个总线。

图14描绘根据本公开的实施方式的计算设备/信息处理***(或是计算***)的简化框图。应理解，计算***可不同地配置并且包括不同组件，包括如图14中所示的更少或更多的部件，但应理解，针对***1400所示出的功能可操作为支持计算***的各种实施方式。

如图14所示，计算***1400包括一个或多个中央处理单元(CPU)1401，CPU 1401提供计算资源并控制计算机。CPU 1401可实施有微处理器等，并且还可包括一个或多个图形处理单元(GPU)1419和/或用于数学计算的浮点协处理器。***1400还可包括***存储器1402，***存储器1402可呈随机存取存储器(RAM)、只读存储器(ROM)、或两者的形式。

如图14所示，还可提供多个控制器和***设备。输入控制器1403表示至各种输入设备1404的接口，例如键盘、鼠标、触摸屏和/或触笔。计算***1400还可包括存储控制器1407，该存储控制器1407用于与一个或多个存储设备1408对接，存储设备中的每个包括存储介质(诸如磁带或盘)或光学介质(其可用于记录用于操作***、实用工具和应用程序的指令的程序，它们可包括实施本发明的各方面的程序的实施方式)。存储设备1408还可用于存储经处理的数据或是将要根据本公开处理的数据。***1400还可包括显示控制器1409，该显示控制器1409用于为显示设备1411提供接口，显示设备1411可为阴极射线管(CRT)、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或其他类型的显示器。计算***1400还可包括用于一个或多个***设备1406的一个或多个***控制器或接口1405。***设备的示例可包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。计算***1400还可包括用于与打印机1413通信的打印机控制器1412。通信控制器1414可与一个或多个通信设备1415对接，这使***1400能够通过各种网络(包括互联网、云资源(例如以太云、经以太网的光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN))中的任一网络，或通过任何合适电磁载波信号(包括红外信号)来连接至远程设备。

在示出的***中，所有主要***组件可连接至总线1416，总线1416可表示多于一个的物理总线。然而，各种***组件可在物理上彼此接近或可不在物理上彼此接近。例如，输入数据和/或输出数据可远程地从一个物理位置传输到另一物理位置。另外，实现本公开的各方面的程序可经由网络从远程位置(例如，服务器)访问。此类数据和/或程序可通过各种机器可读介质中的任一机器可读介质来传送，机器可读介质包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及硬件设备，该硬件设备专门被配置成存储或存储并执行程序代码，该硬件设备例如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。

本发明的方面可利用用于一个或多个处理器或处理单元以使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应注意力，一个或多个非暂态计算机可读介质应当包括易失性存储器和非易失性存储器。应注意力，替代实现方式是可能的，其包括硬件实现方式或软件/硬件实现方式。硬件实施的功能可使用ASIC、可编程的阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“手段”旨在涵盖软件实现方式和硬件实现方式两者。类似地，如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序的软件和/或硬件或它们的组合。利用所构想的这些替代实现方式，应当理解，附图以及随附描述提供本领域的技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理所要求的功能信息。

应当注意，本发明的实施方式还可涉及具有其上具有用于执行各种计算机实施的操作的计算机代码的非暂态有形计算机可读介质的计算机产品。介质和计算机代码可为出于本发明的目的而专门设计和构造的介质和计算机代码，或者它们可为相关领域中的技术人员已知或可用的。有形计算机可读介质的示例包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件设备，例如，专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。计算机代码的示例包括机器代码(例如，编译器产生的代码)以及包含可由计算机使用解释器来执行的更高级代码的文件。本发明的实施方式可整体地或部分地实施为可在由处理设备执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布的计算环境中，程序模块可物理上定位在本地、远程或两者的设定中。

本领域的技术人员将认识到，计算***或编程语言对本发明的实践来说均不重要。本领域的技术人员将还将认识到，多个上述元件可物理地和/或在功能上划分成子模块或组合在一起。

本领域技术人员将理解，前文的示例和实施方式是示例性的，并且不限制本公开的范围。旨在说明的是，在本领域的技术人员阅读本说明书并研究附图后将对本领域的技术人员显而易见的本公开的所有、置换、增强、等同、组合或改进包括在本公开的真实精神和范围内。还应注意力，任何权利要求书的元素可不同地布置，包括具有多个从属、配置和组合。

Claims

1.一种用于在包括多个时间步的阶段中基于互动的语言学习的计算机实施的方法，所述方法包括：

使用视觉编码器将所述视觉图像编码成视觉特征表示；

2.根据权利要求1所述的计算机实施的方法，还包括：

使用所述第二神经网络在所述时间步的最终状态作为在下一时间步对所述第一神经网络的输入。

3.根据权利要求1所述的计算机实施的方法，其中，如果所述响应是正确的响应，或者当达到互动步骤的最大数量时，所述阶段结束。

4.根据权利要求1所述的计算机实施的方法，其中，所述残余结构化网络是具有能够学习的控制器的身份映射增强网络。

5.根据权利要求4所述的计算机实施的方法，其中，所述能够学习的控制器接收所述状态向量并生成输出，所述控制向量通过将所述控制器的输出与所述状态向量组合而获得。

6.根据权利要求1所述的计算机实施的方法，还包括：

由老师根据所述自然语言输入、所述视觉图像和所述响应生成反馈和奖励。

7.根据权利要求6所述的计算机实施的方法，其中，所述奖励是标量值反馈，根据所述响应的正确性，用正值作为鼓励，负值作为劝阻。

8.根据权利要求6所述的计算机实施的方法，其中，通过将由强化成本函数表示的预期未来奖励最大化，利用所述奖励来调整生成响应时的行动策略。

9.根据权利要求8所述的计算机实施的方法，其中，通过将在所述第一神经网络通过模仿成本函数预测所述自然语言输入时的误差最小化并在所述第一神经网络和所述第二神经网络之间共享参数，同时优化所述行动策略。

10.根据权利要求1所述的计算机实施的方法，其中，在存储器写入操作中，内容重要性门被计算为所述自然语言输入的函数，以自适应地控制是否将所述自然语言输入的内容写入所述存储器。

11.一种用于经过训练的代理使用习得的语言能力和发展的一次性学习能力的计算机实施的方法，所述方法包括：

使用视觉编码器将所述视觉图像编码成视觉钥匙；

12.根据权利要求11所述的计算机实施的方法，其中，所述至少一个视觉模态和句子模态对经由所述第一神经网络，使用历史自然语言输入和相关联的视觉输入、基于学习到的内容重要性来存储。

13.根据权利要求12所述的计算机实施的方法，其中，所存储的自然语言输入表示是基于矩阵以及归一化注意力向量获得的，其中所述矩阵的列是来自相关历史自然语言输入的所有单词的嵌入向量，所述归一化注意力向量表示所述相关历史自然语言输入中的每个单词的相对重要性。

14.根据权利要求11所述的计算机实施的方法，其中，由所述第二神经网络指示的建议的响应部分经由单词级注意力和内容重要性联合地从所述自然语言输入中提取。

15.根据权利要求11所述的计算机实施的方法，其中，通过跨模态检索从所述存储器中检索所述自然语言输入表示，所述跨模态检索通过使用所述视觉钥匙获得软读取权重来实施。

16.根据权利要求15所述的计算机实施的方法，其中，通过计算所述视觉钥匙和存储的视觉特征表示之间的余弦相似度来获得所述软读取权重，通过实施所获得的软读取权重和所述存储的自然语言输入表示之间的乘积，检索所述自然语言输入表示的至少一部分，作为对应于与所述视觉图像相关联的标签单词的嵌入向量。

17.一种用于使用一次性视觉概念学习的互动式语言习得的***，所述***包括：

视觉编码器，用于将视觉图像编码成视觉特征表示；

18.根据权利要求17所述的***，其中，所述第一神经网络和所述第二神经网络都是递归神经网络并且共享参数。

19.根据权利要求17所述的***，其中，所述残余结构化网络包括能够学习的控制器，以接收所述状态向量并生成输出，所述控制向量通过将所述控制器的输出组合到所述状态向量而获得。

20.根据权利要求17所述的***，其中，所述第二神经网络包括一个或多个融合门，以至少部分基于学习到的注意力和内容重要性，在由所述第二神经网络指示的建议的响应部分和从所述存储器检索的自然语言输入表示的至少一部分指示的建议的响应部分之间自适应地进行切换。