CN109670147A

CN109670147A - 更新句子生成模型的方法以及句子生成设备

Info

Publication number: CN109670147A
Application number: CN201810478297.0A
Authority: CN
Inventors: 李镐式; 罗辉栋
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-10-16
Filing date: 2018-05-18
Publication date: 2019-04-23
Also published as: JP7109302B2; KR102424540B1; US20190114540A1; KR20190042257A; JP2019075088A; EP3474157A1; US11727263B2

Abstract

提供一种更新句子生成模型的方法以及句子生成设备。一种更新句子生成模型的方法包括：使用第一解码模型生成与源句子对应的目标句子；使用第二解码模型，来计算与目标句子相关联的奖励信息，其中，第二解码模型被配置为以与由第一解码模型生成的句子的次序不同的次序生成句子；基于计算的奖励信息，重新设置第一解码模型中的每个节点的权重。

Description

更新句子生成模型的方法以及句子生成设备

本申请要求于2017年10月16日提交到韩国知识产权局的第10-2017-0133971号韩国专利申请的权益，所述韩国专利申请的全部公开出于所有目的通过引用合并于此。

技术领域

下面的描述涉及一种更新用于生成句子的句子生成模型的方法以及使用句子生成模型生成句子的方法。

背景技术

近来，已经积极开展了关于使用神经网络生成句子的技术的研究。该技术应用于各种应用，诸如，生成原始句子的翻译句子的翻译器以及与用户对话的会话代理。用于该技术的神经网络模拟以数学表达式表示的人的生物神经元的特性，并使用模仿人的学习能力的算法。神经网络可具有响应于尚未用于学习或训练的输入模式基于学习或训练的结果生成相对正确的输出的泛化能力。

发明内容

提供本发明内容从而以简化的形式介绍在下面的具体实施方式中进一步描述的构思的选择。本发明内容不意图标识要求保护的主题的关键特征或必要特征，也不意图用于帮助确定要求保护的主题的范围。

在一个总体方面，一种更新句子生成模型的方法包括：使用第一解码模型生成与源句子对应的目标句子；使用被配置为以与由第一解码模型生成的句子的次序不同的次序生成句子的第二解码模型，来计算与目标句子相关联的奖励信息；基于计算的奖励信息，重新设置第一解码模型中的每个节点的权重。

计算奖励信息的步骤可包括：基于从第二解码模型生成包括在目标句子中的每个词的概率，来计算奖励信息。

计算奖励信息的步骤还可包括：使用源句子和在先前时间从第二解码模型输出的第一词，计算在当前时间从第二解码模型生成第二词的概率。

计算奖励信息的步骤可包括：使用包括在目标句子中的词以与目标句子中的所述词的次序不同的次序排列的序列，来计算奖励信息。

第一解码模型可以是包括循环神经网络(RNN)的前向解码模型，第二解码模型可以是包括RNN的后向解码模型。

重新设置权重的步骤可包括：使用第一解码模型，计算与目标句子相关联的策略信息；使用计算的策略信息和计算的奖励信息，重新设置与预设条件对应的权重。

计算策略信息的步骤可包括：基于从第一解码模型生成包括在目标句子中的每个词的概率，来计算策略信息。

计算策略信息的步骤还可包括：使用源句子和在先前时间从第一解码模型输出的第一词，计算在当前时间从第一解码模型生成第二词的概率。

计算权重的步骤可包括：重新设置使由奖励信息和与多个目标句子中的每个目标句子相关联的策略信息定义的目标函数最大化的权重。可使用第一解码模型从源句子生成所述多个目标句子。

计算权重的步骤可包括：重新设置使由目标函数和从第一解码模型生成源句子的预定正确句子的概率定义的损失函数最小化的权重。这里，可使用第一解码模型从源句子生成多个目标句子，可由奖励信息和与所述多个目标句子中的每个目标句子相关联的策略信息来定义目标函数。

生成目标句子的步骤可包括：基于响应于源句子从第一解码模型输出的最终结果值中的在预设范围内的最终结果值，生成多个目标句子。

生成目标句子的步骤可包括：基于响应于源句子中的词在第一时间从第一解码模型输出的输出值，生成多个目标句子。计算奖励信息的步骤可包括：使用第二解码模型，计算与在第一时间生成的所述多个目标句子相关联的奖励信息。

生成目标句子的步骤可包括：通过对响应于源句子中的词而在第一时间从第一解码模型输出的输出值进行采样，来生成预设数量的目标句子。计算奖励信息的步骤可包括：使用第二解码模型，计算与预设数量的目标句子相关联的奖励信息。

生成目标句子的步骤可包括：基于响应于包括在源句子中的多个词中的每个词从第一解码模型输出的输出值，来生成多个第一目标句子；基于响应于源句子的整体从第一解码模型输出的最终结果值之中的在预设范围内的最终结果值，生成多个第二目标句子。

计算奖励信息的步骤可包括：使用第二解码模型计算与所述多个第一目标句子相关联的第一奖励信息；使用第二解码模型计算与所述多个第二目标句子相关联的第二奖励信息。

更新句子生成模型的方法还包括：使用第二解码模型来生成与源句子对应的新的目标句子；使用第一解码模型来计算与新的目标句子相关联的奖励信息；基于计算的奖励信息重新设置第二解码模型中的每个节点的权重。

在另一总体方面，一种句子生成设备，包括：生成器，被配置为使用第一解码模型生成与源句子对应的目标句子；计算器，被配置为使用第二解码模型计算与目标句子相关联的奖励信息；更新器，被配置为基于计算的奖励信息重新设置第一解码模型中的每个节点的权重。句子生成设备可由计算机实现。

计算器可使用包括在目标句子中的词以与目标句子中的词的次序不同的次序排列的序列，来计算奖励信息。计算器可通过使用源句子和在先前时间从第二解码模型输出的第一词计算在当前时间从第二解码模型生成第二词的概率，来计算奖励信息。

计算器可通过将在在目标句子中包括的每个词中包括的字符被分离的序列输入到第二解码模型，来计算奖励信息。计算器可通过使用源句子和在先前时间从第二解码模型输出的第一字符计算在当前时间从第二解码模型生成第二字符的概率，来计算奖励信息。

生成器可基于响应于源句子而从第一解码模型输出的最终结果值之中的在预设范围内的最终结果值，生成多个目标句子。

生成器可基于响应于源句子中的词在第一时间从第一解码模型输出的输出值生成多个目标句子，计算器可使用第二解码模型来计算与在第一时间生成的多个目标句子相关联的奖励信息。

生成器可基于响应于源句子中的每个词而从第一解码模型输出的输出值生成多个第一目标句子，并基于响应于源句子的整体从第一解码模型输出的最终值之中的在预设范围内的最终结果值生成多个第二目标句子。计算器可使用第二解码模型计算与所述多个第一目标句子相关联的第一奖励信息，并使用第二解码模型计算与所述多个第二目标句子相关联的第二奖励信息。

生成器可使用第二解码模型生成与源句子对应的新的目标句子，计算器可使用第一解码模型计算与新的目标句子相关联的奖励信息，更新器可基于计算的奖励信息重新设置第二解码模型中的多个节点中的每个节点的权重。

根据下面的具体实施方式、附图和权利要求，其他特征和方面将是清楚的。

附图说明

图1是示出用于更新句子生成模型的设备或更新设备的示例的示图。

图2是示出如何生成目标句子并计算奖励信息(reward information)的示例的示图。

图3A是示出计算与目标句子相关联的奖励信息的方法的示例的流程图。

图3B是示出计算与目标句子相关联的策略信息的方法的示例的流程图。

图4A是示出使用目标函数重新设置第一解码模型的权重的方法的示例的流程图。

图4B是示出使用损失函数重新设置第一解码模型的权重的方法的示例的流程图。

图5是示出句子生成模型的作用和评价模型的作用如何互相改变的示例的示图。

图6是示出被配置为使用N-best算法生成目标句子的更新设备的示例的示图。

图7是示出被配置为使用蒙特卡罗(Monte Carlo)搜索算法生成目标句子的更新设备的示例的示图。

图8A和图8B分别是示出一起使用N-best算法和蒙特卡罗搜索算法生成目标句子的方法的示例的示图和流程图。

图9是示出如何计算与目标句子相关联的奖励信息的另一示例的示图。

图10是示出句子生成设备的示例的示图。

除非另外描述或提供，否则贯穿附图和具体实施方式，相同的附图参考标号将被理解为表示相同的元件、特征和结构。为了清楚、说明和方便，附图可不按比例绘制，并且附图中的元件的相对大小、比例和描绘可被夸大。

具体实施方式

提供下面的详细描述以帮助读者获得对在此描述的方法、设备和/或***的全面理解。然而，在理解本申请的公开后，在此描述的方法、设备和/或***的各种改变、修改和等同物将是清楚的。例如，在此描述的操作的顺序仅是示例，操作的顺序不受限于在此阐述的顺序，除了必须按特定次序发生的操作之外，操作的顺序可如在理解本申请的公开后将清楚的那样改变。此外，为了更加清楚和简洁，本领域中已知的特征的描述可被省略。

在此描述的特征可以以不同的形式来实施，并且不将被解释为受限于在此描述的示例。相反，在此描述的示例仅被提供，以示出在理解本申请的公开之后将是清楚的实施在此描述的方法、设备和/或***的许多可行方式中的一些方式。

贯穿说明书，当元件(诸如，层、区域或基底)被描述为在另一元件“之上”、“连接到”或“结合到”另一元件时，该元件可直接在所述另一元件“之上”、直接“连接到”或“结合到”所述另一元件，或者可存在介于它们之间的一个或多个其他元件。相反，当元件被描述为“直接”在另一元件“之上”、“直接连接到”或“直接结合到”另一元件时，可不存在介于它们之间的其他元件。如在此使用的，术语“和/或”包括相关所列项的任意一个或相关所列项的任意两个或更多个的任意组合。

尽管在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分，但是这些构件、组件、区域、层或部分不受这些术语限制。相反，这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分区分开。因此，在不脱离示例的教导的情况下，在此描述的示例中所称的第一构件、组件、区域、层或部分还可被称为第二构件、组件、区域、层或部分。

在此使用的术语仅为了描述各种示例，而不将用于限制本公开。除非上下文另外清楚地指示，否则单数形式也意在包括复数形式。术语“包括”、包含”和“具有”表明存在叙述的特征、数量、操作、构件、元件和/或它们的组合，但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。

除非另外定义，否则在此使用的所有术语(包括技术术语和科学术语)具有如与本公开所属领域中的普通技术人员通常理解的含义相同的含义。除非在此明确地如此定义，否则术语(诸如，通用词典中定义的那些术语)将被解释为具有与它们在相关领域的上下文中的含义一致的含义，而不将被解释为理想化或过于形式化的意义。

此外，在示例实施例的描述中，当认为与公知相关的结构或功能的详细描述将导致本公开的模糊解释时，将省略这样的描述。

图1是示出用于更新句子生成模型的设备的示例的示图。用于更新句子生成模型的设备将在下文中简称为更新设备。在此使用的句子生成模型表示被配置为基于输入的源句子来预测目标句子的语言模型。例如，句子生成模型可以是被配置为接收原始句子作为输入并生成原始句子的翻译句子的翻译模型。另一示例，句子生成模型可以是被配置为接收源句子作为输入并生成与源句子对应的对话的会话代理模型。在前面描述的翻译模型和会话代理模型仅被提供为示例性示例，因此可不被解释为限制其他示例的范围。将在下文中描述的句子生成模型可以是被配置为基于预设条件输出与源句子对应的目标句子的各种类型的语言模型。

参照图1，更新设备100包括生成器110、计算器120和更新器130。虽然未在图1中示出，但是更新设备100可包括至少一个处理器，并且生成器110、计算器120和更新器130可暂时由处理器实现。

在一个示例中，响应于源句子被输入，更新设备100可输出第一解码模型141的更新的权重。在此，第一解码模型141可将更新之前的连接权重输出到更新器130。该连接权重表示在更新之前包括在第一解码模型141中的节点之间的连接权重。在此使用的更新的权重表示包括在第一解码模型141中的多个节点中的每个节点的连接权重。也就是说，更新设备100可生成与输入的源句子对应的目标句子，并基于与生成的目标句子相关联的奖励信息来重新设置第一解码模型141的权重。在另一示例中，更新设备100可接收源句子，更新将被应用于第一解码模型141中的多个节点中的每个节点的激励函数的阈值，并输出更新的阈值。

生成器110可接收源句子作为输入并生成目标句子。生成器110可使用第一解码模型141生成与输入的源句子对应的目标句子。在一个示例中，生成器110可基于预设规则生成与源句子对应的多个目标句子。在下文中，将参照下面的其他附图详细地描述如何通过生成器110生成多个目标句子。

计算器120可计算与从生成器110传送的目标句子相关联的奖励信息。计算器120可使用第二解码模型142计算与目标句子相关联的奖励信息。在一个示例中，计算器120可通过使用源句子和在先前时间从第二解码模型142输出的第一词计算在当前时间从第二解码模型142生成第二词的概率，来计算奖励信息。计算器120可将计算的奖励信息输出到更新器130。

更新器130可基于计算的奖励信息来重新设置第一解码模型141中的每个节点的权重。在一个示例中，更新器130可使用第一解码模型141来计算与目标句子相关联的策略信息。此外，更新器130可使用计算的奖励信息和计算的策略信息，来重新设置与预设条件对应的权重。

更新设备100可将用于生成目标句子的第一解码模型141和用于计算奖励信息的第二解码模型142存储在预设存储装置中。例如，更新设备100中的存储器区域以及通过接口连接到更新设备100的外部存储器装置可被用作预设存储装置。

在一个示例中，神经网络可被用作第一解码模型141和第二解码模型142。例如，在先前时间的隐藏层的输出值在当前时间被再次输入到隐藏层的循环神经网络(RNN)可被用作第一解码模型141和第二解码模型142。然而，在前面描述的示例仅被提供为示例性的示例来增强对第一解码模型141和第二解码模型142的理解，因此可不被理解为限制其他示例的范围。例如，可以以各种类型的神经网络(诸如，深度神经网络(DNN)、卷积神经网络(CNN)等)来实现或实施第一解码模型141和第二解码模型142中的每一个。

在下文中，将参照下面的附图详细地描述如何使用源句子生成目标句子并计算奖励信息。

图2是示出如何生成目标句子并计算奖励信息的示例的示图。参照图2，在每个时间步骤，源句子210的特征值输入到被配置为生成第一目标句子231的第一解码模型230。例如，如示出的，源句子210是多个词(例如，x₁、x₂…x_n)以预定次序排列的句子。在这样的示例中，包括在源句子210中的词x₁、x₂…x_n中的每一个词被输入到预定的编码模型220并且特征值被提取。从源句子210提取的特征值包括上下文信息和第一注意力信息。在此使用的上下文信息表示指示源句子210的语义信息的压缩信息。在此使用的第一注意力信息表示这样的信息：该信息指示在当前时间源句子210的哪些信息需要被验证以生成第一目标句子231。

与源句子210相关联的上下文信息和第一注意力信息被输入到第一解码模型230中的节点。示例性地但不是限制性地，第一解码模型230可被实现为在先前时间的隐藏层的输出值在当前时间被再次输入到隐藏层的RNN。例如，如示出的，在确定第一目标句子231中的第二词y₂的处理中，在先前时间的隐藏层的第一输出值和在先前时间从第一解码模型230输出的第一词y₁与上下文信息和第一注意力信息一起被使用。此外，第一解码模型230可表示被配置为以从目标句子的开始到目标句子的结束的顺序的次序执行解码的前向解码模型。在这样的情况下，更新设备100可使用第一解码模型230以从第一词y₁开始并以第n词y_n结束的次序来生成第一目标句子231。

类似地，与源句子210相关联的上下文信息和第二注意力信息被输入到第二解码模型240中的节点。示例性地但不是限制性地，第二解码模型240还可被实现为RNN。在一个示例中，第二解码模型240可表示被配置为以从目标句子的结束到目标句子的开始的顺序的次序执行解码的后向解码模型。也就是说，第二解码模型240可以以与由第一解码模型230生成的第一目标句子231的次序相反的次序来使用第二目标句子241。第二目标句子241可指示包括在第一目标句子231中的词以从第n词y_n开始并以第一词y₁结束的次序排列的序列。

更新设备100基于从第二解码模型240生成包括在第二目标句子241中的每个词的概率，来计算奖励信息。更新设备100使用源句子210的特征值和在先前时间从第二解码模型240输出的第一词，来计算在当前时间从第二解码模型240生成第二词的概率，并使用计算的概率来计算奖励信息。

虽然为了描述的方便，编码模型220、第一解码模型230和第二解码模型240中的每一个在图2中被示出为单层，但是这样的示例不被解释为限制其他示例的范围。例如，还可实现编码模型220、第一解码模型230和第二解码模型240中的每一个包括输入层、隐藏层和输出层的多层结构的示例。

在一个示例中，更新设备100可将包括RNN的前向解码模型用作第一解码模型230来生成目标句子，并将包括RNN的后向解码模型用作第二解码模型240来计算奖励信息。因此，更新设备100可基于从后向解码模型计算的奖励信息，来重新设置前向解码模型中的每个节点的权重，从而生成可防止在生成句子时仅沿一个方向解码并还可提供各种表述的句子的句子生成模型。

图3A是示出计算与目标句子相关联的奖励信息的方法的示例的流程图。参照图3A，计算与目标句子相关联的奖励信息的方法包括：以预定次序计算从第二解码模型生成包括在目标句子中的每个词的概率的操作310以及使用计算的各个词的概率来计算与目标句子相关联的奖励信息的操作320。

在操作310中，计算从第二解码模型生成包括在目标句子中的的每个词的概率。在此使用的目标句子表示从与第二解码模型不同的第一解码模型生成的句子。例如，目标句子可以是使用前向解码模型从源句子生成的多个句子。在这样的示例中，在操作310中，可计算从第二解码模型生成在多个目标句子之中的第一目标句子中包括的每个词的概率。

在这样的示例中，可从第一解码模型生成包括以第一词y₁→第二词y₂→…→第T词y_T的次序排列的词的第n目标句子Tⁿ。这里，还可使用这些词排列的次序将第n目标句子Tⁿ表示为y_1:T。例如，包括在第n目标句子Tⁿ中的词以表1中示出的次序排列。

[表1]

整个句子	第一词	第二词	…	第T-1词	第T词
						T<sup>n</sup>	y<sub>1</sub>	y<sub>2</sub>	…	y<sub>T-1</sub>	y<sub>T</sub>

在这样的示例中，在操作310中，可计算从第二解码模型生成包括在第n目标句子Tⁿ中的每个词的概率。详细地，可使用包括在第n目标句子Tⁿ中的词以相反的次序排列的序列来计算从第二解码模型生成每个词的概率。序列表示第n目标句子Tⁿ中的词以相反的次序排列的序列，并且可包括以第T词y_T→第T-1词y_T-1→…→第二词y₂→第一词y₁的相反次序排列的词。类似地，可使用包括在序列中的词排列的次序，将序列表示为y_T:1。例如，包括在序列中的词以表2中示出的次序排列。

[表2]

例如，在操作310中，可计算从第二解码模型生成第T-t+1词y_t的概率。详细地，如下面数学式1所表示的那样，可使用源词和在先前时间从第二解码模型生成的词，来计算在当前时间从第二解码模型生成第T-t+1词y_t的概率。这里，第T-t+1词y_t可以是从序列的起点(例如，沿右方向)排列的第T-t+1的词。

[数学式1]

P(y_t|y_T+1：t+1，S；Φ)

在数学式1中，S表示输入到第一解码模型和第二解码模型的源句子，y_T+1:t+1表示在先前时间从第二解码模型输出的词的输出值。在y_T+1:t+1中，y_T+1表示指示第n目标句子Tⁿ的结束的信息。此外，在y_T+1:t+1中，y_T至y_t+1指示在整个序列中从第一词至第T词的词的输出值。此外，在数学式1中，Φ表示限定第二解码模型中的节点的连接的权重参数。

在操作310中，可计算基于包括在第n目标句子Tⁿ中的词在序列中排列的次序从第二解码模型生成每个词的概率。详细地，可首先计算从第二解码模型生成包括在序列中的第一词y_T的概率P(y_T|y_T+1,S；Φ)，并且可计算从第二解码模型生成第二词y_T-1的概率P(y_T-1|y_T+1:y_T,S；Φ)，依次类推。然后可计算从第二解码模型生成最后一个词y₁的概率，因此各个词的概率都可以以顺序的次序计算。虽然为了描述的方便在此描述了计算包括在第n目标句子Tⁿ中的词的概率的处理，但是对于本领域的技术人员明显的是，按上述方式计算包括在由在此描述的更新设备生成的每个目标句子中的每个词的概率。

在操作320中，使用各个词的概率来计算与目标句子相关联的奖励信息。例如，可如数学式2所表示计算与第n目标句子Tⁿ相关联的奖励信息r_n。

[数学式2]

在数学式2中，表示从第二解码模型生成以第n目标句子中的词后向排列的相反次序的序列的概率。可如下面的数学式3所表示计算

[等式3]

从第二解码模型生成序列的概率可被计算为通过将以顺序的次序生成包括在序列中的词的概率进行相乘获得的值或者乘积。详细地，从第二解码模型生成序列的概率可被计算为通过将从第二解码模型以顺序的次序生成序列中的从第一词yT到最后一词y1的各个词的概率进行相乘获得的值或者乘积。

计算上面描述的奖励信息的方法可由更新设备来执行，并且操作310和操作320可由包括在更新设备中的计算器来执行。

图3B是示出计算与目标句子相关联的策略信息的方法的示例的流程图。参照图3B，计算与目标句子相关联的策略信息的方法包括：计算从第一解码模型生成包括在目标句子中的每个词的概率的操作330以及使用计算的所述多个词的各自的概率来计算与目标句子相关联的策略信息的操作340。

在操作330中，计算从第一解码模型生成包括在目标句子中的每个词的概率。在此使用的目标句子表示从第一解码模型生成的句子。例如，在第一解码模型是前向解码模型的情况下，目标句子可以是使用前向解码模型从源句子生成的多个句子。

例如，在操作330中，可计算从第一解码模型生成包括在多个目标句子之中的第一目标句子中的多个词中的每个词的概率。在下文中，为了描述的方便，作为示例将描述计算从第一解码模型生成包括在第n目标句子Tⁿ中的每个词的概率的方法。然而，还清楚的是，以相同的方法来计算从第一解码模型生成包括在多个目标句子中的每个目标句子中的每个词的概率。

例如，可从第一解码模型生成包括以第一词y₁→第二词y₂→…→第T词y_T的次序的多个词的第n目标句子Tⁿ。可使用包括在第n目标句子Tⁿ中的词排列的次序，将第n目标句子Tⁿ表示为y_1:T。在这样的示例中，在操作330中，可计算从第一解码模型生成包括在第n目标句子Tⁿ中的每个词的概率。详细地，可如下面数学式4所示，计算从第一解码模型生成包括在第n目标句子Tⁿ中的第t词y_t的概率。第t词y_t可以是从第n目标句子Tⁿ的起点(例如，沿右方向)排列的第t的词。

[数学式4]

P(y_t|y_0：t-1，S；θ)

在数学式4中，S表示输入到第一解码模型的源句子，y_0:t-1表示与在先前时间从第一解码模型输出的多个词相关联的输出值。在y_0:t-1中，y₀可以是指示第n目标句子Tⁿ的开始的信息。此外，在y_0:t-1中，y₁至y_t-1表示第n目标句子Tⁿ中的从第一词至第t-1词的输出值。在方程式4中，θ表示限定第一解码模型中的节点的连接的权重参数。

在操作330中，以包括在第n目标句子Tⁿ中的词在第n目标句子Tⁿ中排列的次序，计算从第一解码模型生成每个词的概率。详细地，以顺序的次序，首先计算从第一解码模型生成包括在第n目标句子Tⁿ中的第一词y₁的概率P(y₁|y₀,S；θ)，然后计算从第一解码模型生成第二词y₂的概率P(y₂|y_0:1,S；θ)，最后计算从第一解码模型生成最后的第T词y_T的概率P(y_T|y_0:T-1,S；θ)。

在操作340中，使用计算的各个词的概率来计算与目标句子相关联的策略信息。例如，可如下面数学式5所示，计算与第n目标句子Tⁿ相关联的策略信息p_n。

[数学式5]

p_n＝P(Tⁿ|S；θ)

在数学式5中，P(Tⁿ|S；θ)表示以顺序的次序从第一解码模型生成第n目标句子Tⁿ中的词的概率。详细地，可如下面数学式6所示来计算P(Tⁿ|S；θ)。

[数学式6]

在数学式6中，P(Tⁿ|S；θ)可被计算为通过将以从第一词y₁开始到最后一词y_T的顺序的次序从第一解码模型生成第n目标句子Tⁿ中的词的概率进行相乘获得的值或者乘积。

上面描述的计算与目标句子相关联的策略信息的方法可由更新设备来执行。详细地，操作330和操作340可由包括在更新设备中的更新器来执行。

如描述的，更新设备可使用生成目标句子的第一解码模型来计算策略信息，并使用与第一解码模型不同的第二解码模型来计算奖励信息。此外，更新设备可使用计算的策略信息和计算的奖励信息来重新设置第一解码模型的权重。因此更新设备可更新句子生成模型，而不会偏向一个方向。在下文中，将参照下面的附图详细地描述如何重新设置第一解码模型的权重。

图4A是示出使用目标函数重新设置第一解码模型的权重的方法的示例的流程图。参照图4A，使用目标函数重新设置第一解码模型的权重的方法包括：计算由与多个目标句子中的每个目标句子相关联的奖励信息和策略信息定义的目标函数的操作410以及重新设置第一解码模型的权重使得计算的目标函数最大化的操作420。

在操作410中，计算由与多个目标句子中的每个目标句子相关联的奖励信息和策略信息定义的目标函数。在此，可基于奖励信息和策略信息来计算目标函数。例如，可基于强化学习的策略梯度方法来定义目标函数。策略梯度方法对于本领域的技术人员来说可能是公知的，因此为了简洁和清楚，这里将省略策略梯度方法的详细的描述。

例如，可响应于源句子而通过更新设备生成多个目标句子。在这样的示例中，在操作410中，可如下面数学式7所示，使用与目标句子中的每个目标句子相关联的奖励信息和策略信息来计算目标函数J(θ)。

[数学式7]

例如，在由更新设备生成N个目标句子的情况下，可通过将奖励信息与策略信息相乘(从与第一目标句子T¹对应的第一奖励信息r₁和第一策略信息的对数值logP(T¹|S；θ)相乘到与第N目标句子T^N对应的第N奖励信息r_N和第N策略信息的对数值logP(T^N|S；θ)相乘)的乘积进行相加，然后通过将经由相加获得的结果值除以目标句子的数量N，来计算目标函数J(θ)。

在操作420中，可计算使计算的目标函数J(θ)最大化的θ。θ表示第一解码模型中的节点的连接权重参数。

虽然未在图4A中示出，但是可在操作420中使用使根据目标函数定义的损失函数最小化的方法，来计算第一解码模型的权重。详细地，可如下面数学式8所示来定义损失函数L(θ)。

[数学式8]

在一个示例中，可通过将梯度下降方法应用到损失函数L(θ)来计算第一解码模型的权重θ。梯度下降方法表示通过沿计算的梯度的相反方向逐渐移动权重θ来发现局部最小的方法。详细地，可如下面数学式9所示，重新设置第一解码模型的权重θ。

[数学式9]

在数学式9中，重新设置的权重θ可被重新设置为沿梯度的相反方向从原始权重θ以学习率α进行移动。

图4B是示出使用损失函数重新设置第一解码模型的权重的方法的示例的流程图。参照图4B，使用损失函数重新设置第一解码模型的权重的方法包括：计算由与多个目标句子中的每个目标句子相关联的奖励信息和策略信息定义的目标函数的操作430、以及重新设置第一解码模型的权重使得由计算的目标函数和从第一解码模型生成源句子的正确句子的概率定义的损失函数最小化的操作440。

在操作430中，由与目标句子中的每个目标句子相关联的奖励信息和策略信息定义的目标函数被计算。在此，可基于奖励信息和策略信息来计算目标函数。对于计算目标函数的方法，可参考上面参照图4A描述的操作410和数学式7，因此为了简洁和清楚，这里省略更详细的重复描述。

在操作440中，基于奖励信息和策略信息来计算由目标函数定义的损失函数。从第一解码模型生成正确句子的概率被计算。详细地，可如下面数学式10所示来计算损失函数L(θ)。

[数学式10]

L(θ)＝-logP(Y_1:T|S；θ)-λJ(θ)

在数学式10中，Y_1:T表示针对源句子S的预定正确句子。例如，在源句子S是原始句子的情况下，Y_1:T可表示预定正确的翻译句子的序列。如上面数学式10所示，损失函数(θ)可由最大似然损失以及加权和来定义。在数学式10中，λ表示针对目标函数预先设置的权重参数。在操作440中，与操作420类似，可计算使损失函数L(θ)最小化的第一解码模型的权重。例如，可通过将梯度下降方法应用到损失函数L(θ)来计算第一解码模型的权重θ。

上面参照图4A和图4B描述的重新设置权重的方法可由更新设备执行。详细地，操作410、操作420、操作430和操作440可由包括在更新设备中的更新器执行。

图5是示出句子生成模型的作用和评价模型的作用如何互相改变的示例的示图。图5示出句子生成模型的示例以及被配置为生成与生成的目标句子相关联的奖励信息的评价模型的示例。虽然示出的句子生成模型的示例被实施为翻译模型，但是示例可不被解释为限制其他示例的范围，并且句子生成模型可被实现为被配置为生成与源句子对应的预定目标句子的各种类型的语言模型。

参照图5，在更新设备的第一操作时间段，第一解码模型531被用作句子生成模型。例如，第一解码模型531可被实现为前向解码模型，其中，前向解码模型被配置为从目标句子的开始到目标句子的结束以顺序的次序执行解码。例如，如示出的，源句子510的特征值被输入到第一解码模型531而生成目标句子“I loveyou”(“我爱你”)。这里，包括在源句子510中的词和中的每个词被输入到预定编码模型520，并且特征值被提取。从源句子510提取的特征值包括上下文信息和第一注意力信息。上下文信息表示指示源句子510的语义信息的压缩信息。第一注意力信息表示这样的信息：该信息指示在当前时间源句子510的哪些信息需要被验证以生成目标句子。

在第一操作时间段，与源句子510相关联的上下文信息和第一注意力信息被输入到第一解码模型531中的节点。这里，第一解码模型531中的节点基于权重θ₁、θ₂和θ₃而连接。第一解码模型531基于输入特征值来生成并输出目标句子。

在第一操作时间段，第二解码模型532被用作评价模型。例如，第二解码模型532可被实现为后向解码模型，其中，后向解码模型被配置为从目标句子的结束到目标句子的开始以顺序的次序执行解码。如示出的，源句子510的特征值还被输入到第二解码模型532。从源句子510提取的特征值包括上下文信息和第二注意力信息。

第二解码模型532使用源句子510的特征值和包括在目标句子中的多个词以相反的次序排列的序列，来生成奖励信息。在第一操作时间段，第二解码模型532中的节点基于预设权重Φ₁、Φ₂和Φ₃而连接。使用从第二解码模型532输出的奖励信息，第一解码模型531中的节点的权重被重新设置为新的权重θ₁'、θ₂'和θ₃'。

在更新设备的第二操作时间段，第二解码模型532被用作句子生成模型，更新的第一解码模型533被用作评价模型。

基于更新设备的操作时间段，句子生成模型和评价模型可通过互相改变它们的作用来重新设置权重。因此，更新设备可防止由于解码方向(例如，前向解码或后向解码)而导致的合适的候选词被丢弃或去除，并且还可更新句子生成模型来生成改善质量的句子，而不会偏向一个方向。

在第二操作时间段，第二解码模型532基于输入到第二解码模型532的源句子510的特征值来生成并输出目标句子。更新的第一解码模型533使用源句子510的特征值和包括在目标句子中的多个词以相反的次序排列的序列来生成奖励信息。更新的第一解码模型533使用新重新设置的权重θ₁'、θ₂'和θ₃'来生成与由第二解码模型532新生成的目标句子相关联的奖励信息。与第一操作时间段类似，还可使用从更新的第一解码模型533输出的奖励信息将第二解码模型532中的节点的权重重新设置为新的权重Φ₁'、Φ₂'和Φ₃'。

图6是示出被配置为使用N-best算法生成目标句子的更新设备的示例的示图。图6示出包括N-best句子生成器610的用于更新句子生成模型的更新设备600。参照图6，更新设备600包括N-best生成器610、计算器620和更新器630。

更新设备600接收源句子作为输入，并输出第一解码模型641的更新的权重。在此使用的权重指示包括在第一解码模型641中的节点的连接权重。

N-best句子生成器610接收源句子作为输入，并生成多个目标句子。详细地，N-best句子生成器610基于从第一解码模型641输出的最终结果值之中的在预设范围内的最终结果值，来生成目标句子。

在第一解码模型641被实现为RNN的情况下，第一解码模型641可在每一个时间步骤输出包括在束宽(beam width)中的词的概率分布。在这样的情况下，N-best句子生成器610可通过基于从第一解码模型641输出的最终结果值组合束宽中的词，来生成具有较高概率的N个目标句子。在此，第一解码模型641可将更新之前的连接权重输出到更新器630。该连接权重表示在更新之前包括在第一解码模型641中的节点之间的连接权重。然后，计算器620计算与从N-best句子生成器610传送的每个目标句子相关联的奖励信息。

更新器630基于计算的奖励信息来重新设置第一解码模型641中的节点的权重，并将更新的权重输出到第一解码模型641。针对计算器620和更新器630的详细的操作，可参考参照图1、图3A和图3B以及图4A和图4B提供的描述，因此，为了简明和清楚，这里省略更详细且重复的描述。

图7是示出被配置为使用蒙特卡罗搜索算法生成目标句子的更新设备的示例的示图。图7示出包括蒙特卡罗搜索句子生成器710的更新设备700。参照图7，更新设备700包括蒙特卡罗搜索句子生成器710、计算器720和更新器730。

更新设备700在每个时间步骤基于从第一解码模型741输出的输出值来生成多个目标句子。详细地，蒙特卡罗搜索句子生成器710在每个时间步骤通过将蒙特卡罗搜索应用到从第一解码模型741输出的输出值，来生成预设数量的目标句子。蒙特卡罗搜索表示用于决策的经验搜索算法，以及基于从搜索空间的随机提取来执行树搜索的方法。在一个示例中，蒙特卡罗搜索句子生成器710可在当前时间步骤基于由第一解码模型741提供的输出值来搜索目标句子，并生成检索的目标句子之中的具有较高概率的N个目标句子。与前面描述的方法类似地，蒙特卡罗搜索句子生成器710在第一解码模型741输出最终输出值之前的第一时间生成多个目标句子。

在一个示例中，蒙特卡罗搜索句子生成器710通过对响应于源句子中的词在每个时间步骤从第一解码模型741输出的输出值进行采样，来生成预设数量的目标句子。蒙特卡罗搜索句子生成器710使用第一解码模型741的输出值，来对束宽中的词进行采样。然后，蒙特卡罗搜索句子生成器710通过对采样的词进行组合，来生成预设数量的目标句子。

此外，计算器720使用第二解码模型742，计算与在第一时间生成的多个目标句子相关联的奖励信息。计算器720实时计算与多个目标句子相关联的奖励信息。在此，第一解码模型741可将更新之前的连接权重输出到更新器730。所述连接权重表示在更新之前包括在第一解码模型741中的节点之间的连接权重。此外，更新器730基于计算的奖励信息重新设置第一解码模型741中的节点的权重，并将更新的权重输出到第一解码模型741。对于计算器720和更新器730的详细操作，可参考参照图1、图3A和图3B以及图4A和图4B提供的描述，因此为了简明和清楚，这里省略更详细且重复的描述。

如上所述，更新设备700可在每个时间步骤使用从第一解码模型741输出的输出值来实时生成多个目标句子，因此，更新设备700可在每个时间步骤实时重新设置第一解码模型741的权重。因此，可更容易地实现并行化。

图8A和图8B是示出一起使用N-best算法和蒙特卡罗搜索算法生成目标句子的方法的示例的示图和流程图。图8A示出包括蒙特卡罗搜索句子生成器810和N-best句子生成器820的用于更新句子生成模型的更新设备。参照图8A，更新设备800包括蒙特卡罗搜索句子生成器810、N-best句子生成器820、计算器830和更新器840。

更新设备800在每个时间步骤基于从第一解码模型851输出的输出值来生成多个第一目标句子。基于响应于包括在源句子中的每个词的输出值，来生成多个目标句子中的每个目标句子。详细地，蒙特卡罗搜索句子生成器810在每个时间步骤通过将蒙特卡罗搜索应用到从第一解码模型851输出的输出值，来生成预设数量N的第一目标句子。为了详细地描述蒙特卡罗搜索句子生成器810如何在每个时间步骤生成第一目标句子，可参考参照图7提供的描述，因此为了简明和清楚，这里省略更详细且重复的描述。

计算器830使用第二解码模型852，计算与从第一解码模型851输出的实时的输出值对应的第一奖励信息。更新器840基于计算的第一奖励信息重新设置第一解码模型851的权重，并将更新的权重输出到第一解码模型851。对于计算器830和更新器840的详细的操作，可参考参照图1、图3A和图3B以及图4A和图4B提供的描述，因此为了简明和清楚，这里省略更详细且重复的描述。

如上所述，虽然最终结果值没有从第一解码模型851输出，但是更新设备800可通过应用蒙特卡罗搜索来生成第一目标句子。因此，更新设备800可实时更新第一解码模型851的权重。

此外，更新设备800基于响应于整个源句子或源句子的整体而从第一解码模型851输出的最终结果值，来生成多个第二目标句子。详细地，N-best句子生成器820基于从第一解码模型851输出的最终结果值之中的在预设范围内的最终结果值，来生成第二目标句子。N-best句子生成器820通过将从第一解码模型851输出的最终结果值之中的在束宽中的词进行组合，来输出具有较高概率的N个目标句子。

计算器830使用第二解码模型852基于第一解码模型851的最终输出值，来计算第二奖励信息。在此，第一解码模型851将更新之前的连接权重输出到更新器840。连接权重表示在更新之前包括在第一解码模型851中的节点之间的连接权重。更新器840基于计算的第二奖励信息重新设置第一解码模型851的权重，并将更新的权重输出到第一解码模型851。如上所述，当最终结果值从第一解码模型851输出时，更新设备800可使用从N-best句子生成器820输出的第二目标句子，来更新第一解码模型851的权重。因此，更新设备800可将基于与生成实际句子的句子生成模型中的方法相同的方法获得的学习或训练结果作为权重应用到第一解码模型851。因此，更新设备800可更新句子生成模型来提供改善质量的句子。

图8B是示出通过图8A的更新设备800使用N-best算法和蒙特卡罗搜索算法一起来生成目标句子的方法的示例的流程图。参照图8B，使用N-best算法和蒙特卡罗搜索算法一起来生成目标句子的方法包括：基于响应于源句子的一部分从第一解码模型输出的输出值来生成多个第一目标句子的操作861，通过使用第二解码模型计算与第一目标句子相关联的第一奖励信息来更新第一解码模型的权重的操作862，验证是否输出了与源句子的整体对应的第一解码模型的最终结果值的操作863，基于响应于源句子的整体而从第一解码模型输出的最终结果来生成多个第二目标句子的操作864，以及通过使用第二解码模型计算与第二目标句子相关联的第二奖励信息来更新第一解码模型的权重的操作865。

在操作861中，基于响应于源句子的一部分从第一解码模型输出的中间输出值，来生成第一目标句子。例如，在操作861中，可通过蒙特卡罗搜索句子生成器来生成第一目标句子。

在操作862中，使用第二解码模型来计算与第一目标句子相关联的第一奖励信息。此外，基于计算的第一奖励信息来更新第一解码模型的权重。

在操作863中，验证与源句子的整体对应的第一解码模型的最终结果值是否被输出。当与源句子的整体对应的第一解码模型的最终结果值被输出时，执行操作864。相反，当与源句子的整体对应的第一解码模型的最终结果值还未被输出时，重复执行操作861。

在操作864中，基于响应于源句子的整体而从第一解码模型输出的最终结果值来生成第二目标句子。例如，在操作864中，可通过N-best句子生成器来生成第二目标句子。

在操作865中，使用第二解码模型来计算与第二目标句子相关联的第二奖励信息。此外，基于计算的第二奖励信息来更新第二解码模型的权重。如上所述，所述方法可包括：在第一解码模型的最终结果值被输出之前基于蒙特卡罗搜索句子生成器来更新权重，在最终结果值被输出时基于N-best句子生成器来更新权重。因此，所述方法可实时更新第一解码模型的权重，还可将学习或训练方法匹配到解码方法以提高准确性。

图9是示出如何计算与目标句子相关联的奖励信息的另一示例的示图。图9示出句子生成模型的另一示例和被配置为生成与生成的目标句子相关联的奖励信息的评价模型的另一示例。虽然为了描述的方便，示出的句子生成模型的示例被实现为图9中的翻译模型，但是示例可不被解释为限制其他示例的范围。句子生成模型可被实现为被配置为生成与给定源句子对应的预定目标句子的各种类型的语言模型。

参照图9，更新设备将第一解码模型931用作句子生成模型。例如，第一解码模型931可被实现为前向解码模型，其中，该前向解码模型被配置为以从目标句子的开始到目标句子的结束的顺序的次序来执行解码。如示出的，源句子910的特征值被输入到第一解码模型931，以生成目标句子“I love you”(“我爱你”)。这里，包括在源句子910中的词和中的每个词被输入到预定的编码模型920，并且特征值被提取。从源句子910提取的特征值包括上下文信息和第一注意力信息。对于上下文信息和第一注意力信息的详细描述，可参考上面参照图5提供的描述，因此为了简明和清楚，这里省略更详细且重复描述。

与源句子910相关联的上下文信息和第一注意力信息被输入到第一解码模型931中的节点。这里，第一解码模型931中的节点基于预设权重θ₁、θ₂和θ₃而连接。第一解码模型931基于输入到第一解码模型931的源句子910的特征值，来生成并输出目标句子。

第二解码模型932用作针对生成的目标句子的评价模型。例如，第二解码模型932可被实现为基于字符的解码模型，其中，基于字符的解码模型被配置为通过预测从目标句子中第一字符开始到目标句子的最后字符的多个字符以顺序的次序执行解码。类似地，源句子910的特征值被输入到第二解码模型932。从源句子910提取的特征值包括上下文信息和第二注意力信息。这里，第二解码模型932中的节点基于预设的权重Φ₁至Φ₈而连接。第二解码模型932基于源句子910的特征值以及生成包括在目标句子中的每个字符的概率来生成奖励信息。使用从第二解码模型932输出的奖励信息，来重新设置第一解码模型931中的节点的权重。

如在此描述的，更新设备可将各种类型的解码模型用作评价模型来评价句子生成模型。因此，更新设备可防止句子生成模型在被学习或训练时偏向一个方向。

图10是示出句子生成设备的示例的示图。参照图10，句子生成设备1000包括生成器1010、计算器1020和更新器1030。在此使用的句子生成设备1000表示被配置为输出与由用户输入的源句子对应的目标句子的设备。句子生成设备1000可被嵌入在例如移动电话或蜂窝电话、智能电话、个人计算机(PC)、膝上型计算机、上网本、平板PC、个人数字助理(PDA)、数字相机、游戏机、MP3播放器、个人多媒体播放器(PMP)、电子书、导航***、光盘播放器、机顶盒、家用电器、通信装置、显示装置以及其他电子装置中，或者与这样的装置进行交互。此外，句子生成设备1000可被嵌入在例如智能家电、智能车辆、自动驾驶车辆、智能家居环境、智能建筑环境、智能办公环境和智能电子安全***中，或者与这样的设备、***或环境进行交互。此外，句子生成设备1000可包括在佩戴在用户身体上或者用户的身体周围的可穿戴装置中，或者与这样的装置进行交互。例如，可穿戴装置可被设置为戒指、手表、眼镜、手镯、腰带、带、项链、耳环、头盔、衣服等的形式。

生成器1010可使用第一解码模型来生成与源句子对应的目标语句。第一解码模型可以是存储在预定存储装置中的语言模型。例如，句子生成设备1000中的存储器区域可被用作这种存储装置。另一示例，通过接口连接到句子生成设备1000的外部存储器装置可被用作这种存储装置。在这种存储装置中，可存储多个解码模型。所述解码模型可包括各种类型的语言模型，诸如，包括RNN的前向解码模型、后向解码模型和基于字符的解码模型。生成器1010可从存储装置选择第一解码模型，并使用选择的第一解码模型来生成与源句子对应的目标语句。

在一个示例中，生成器1010可基于响应于源句子从第一解码模型输出的最终结果值之中的在预设范围内的最终结果值来生成多个目标句子。

计算器1020可使用第二解码模型来计算与目标句子相关联的奖励信息。类似地，计算器1020可从存储装置选择第二解码模型，并使用选择的第二解码模型来计算与目标句子相关联的奖励信息。

在一个示例中，在后向解码模型被计算器1020选择的情况下，计算器1020可使用包括在目标句子中的词以与目标句子的次序不同的次序排列的序列来计算奖励信息。计算器1020可通过使用源句子和在先前时间从后向解码模型输出的第一词计算在当前时间从后向解码模型生成第二词的概率，来计算奖励信息。

在另一示例中，在基于字符的解码模型被计算器1020选择的情况下，计算器1020可使用以下序列来计算奖励信息：在该序列中，包括在目标句子中的每个词中的字符彼此分离。计算器1020可通过使用源句子和在先前时间从基于字符的解码模型输出的第一字符计算在当前时间从基于字符的解码模型生成第二字符的概率，来计算奖励信息。

在另一示例中，生成器1010可基于响应于源句子中的词在第一时间从第一解码模型输出的输出值来生成多个目标句子。在这样的示例中，计算器1020可使用第二解码模型来计算与在第一时间生成的多个目标句子相关联的奖励信息。

在另一示例中，生成器1010可基于响应于在源句子中包括的每个词而从第一解码模型输出的输出值来生成多个第一目标句子，并基于响应于源句子的整体从第一解码模型输出的最终结果值之中的在预设范围内的最终结果值来生成多个第二目标句子。在这样的示例中，计算器1020可使用第二解码模型来计算与第一目标句子相关联的第一奖励信息和与第二目标句子相关联的第二奖励信息。更新器1030可基于计算的奖励信息来重新设置第一解码模型中的节点的权重。

在另一示例中，生成器1010可使用第二解码模型生成与源句子对应的新的目标句子。计算器1020可使用第一解码模型来计算与新的目标句子相关联的奖励信息。更新器1030可基于计算的奖励信息来重新设置第二解码模型中的节点的权重。

句子生成设备1000可使用多个预先存储的解码模型作为评价模型来自己更新句子生成模型。句子生成设备1000可周期性地评价由句子生成设备1000具有的解码模型的性能，并周期性地重新设置解码模型的权重以生成更准确的句子。

通过硬件组件来实现在此针对图1、图2、图5、图6、图7、图8A、图9和图10描述的更新设备、句子生成设备以及其他设备、单元、模块、装置和其他组件。可用于执行在本申请中的适当位置描述的操作的硬件组件的示例包括：控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和被配置为执行在本申请中描述的操作的任何其他电子组件。在其他示例中，执行在本申请中描述的操作的一个或多个硬件组件通过计算硬件(例如，通过一个或多个处理器或计算机)来实现。可通过一个或多个处理元件(诸如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编辑门阵列、可编程逻辑阵列、微处理器)或被配置为以限定的方式响应并执行指令来实现期望的结果的任何其他装置或装置的组合，来实现处理器或计算机。在一个示例中，处理器或计算机包括(或连接到)存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行指令或软件(诸如，操作***(OS)和在OS上运行的一个或多个软件应用)，以执行在本申请中描述的操作。硬件组件还可响应于指令或软件的执行，访问、操纵、处理、创建和存储数据。为了简明，单数术语“处理器”或“计算机”可用于本申请中描述的示例的描述中，但在其他示例中，多个处理器或多个计算机可被使用，或者一个处理器或一个计算机可包括多个处理器元件或多种类型的处理器元件或者两者。例如，可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器，来实现单个硬件组件或者两个或更多个硬件组件。可通过一个或多个处理器或者一个处理器和一个控制器，来实现一个或多个硬件组件，并且可通过一个或多个其他处理器、或者另一处理器和另一控制器，来实现一个或多个其他硬件组件。一个或多个处理器、或者一个处理器和一个控制器可实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可具有任意一个或多个不同的处理配置，不同的处理配置的示例包括：单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。

通过计算硬件(例如，通过一个或多个处理器或计算机)来执行图3A和图3B、图4A和图4B以及图8B中示出的方法，其中，计算硬件被实现为如上所述地执行指令或软件，以执行在本申请中描述的由所述方法所执行的操作。例如，单个操作或者两个或更多个操作可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器来执行。一个或多个操作可通过一个或多个处理器或者一个处理器和一个控制器来执行，且一个或多个其他操作可通过一个或多个其他处理器或者另一处理器和另一控制器来执行。一个或多个处理器或者一个处理器和一个控制器可执行单个操作、或者两个或更多个操作。

用于控制处理器或计算机实现硬件组件并执行如上所述的方法的指令或软件被编写为计算机程序、代码段、指令或它们的任意组合，以单独地或共同地指示或配置该处理器或计算机按照机器或专用计算机那样进行操作，以执行由硬件组件和如上所述的方法执行的操作。在一个示例中，指令或软件包括直接由该处理器或计算机执行的机器代码，诸如，由编译器产生的机器代码。在另一示例中，指令或软件包括由该处理器或计算机使用解释器执行的高级代码。本领域的普通编程人员可基于附图中示出的框图和流程图以及说明书中的相应描述容易地编写指令或软件，其中，附图中示出的框图和流程图以及说明书中的相应描述公开了用于执行由硬件组件和如上所述的方法执行的操作的算法。

用于控制处理器或计算机实现硬件组件并执行如上所述的方法的指令或软件、以及任何相关联的数据、数据文件以及数据结构被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储、硬盘驱动器(HDD)、固态驱动器(SSD)、闪存、卡类型存储器(诸如，多媒体微型卡或者卡(例如，安全数字(SD)或者极端数字(XD)))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、以及任何其他装置，该任何其他装置被配置为以非暂时方式存储指令或软件以及任何相关联的数据、数据文件以及数据结构，并向处理器或计算机提供指令或软件以及任何相关联的数据、数据文件以及数据结构，以便该处理器和计算机能够执行指令。

尽管本公开包括特定的示例，但是本领域的普通技术人员将清楚的是，在不脱离权利要求和它们的等同物的精神和范围的情况下，可在这些示例中进行形式和细节的各种改变。在此描述的示例被认为仅是描述性的，而非为了限制的目的。在每一示例中的特征或方面的描述将被认为适用于其他示例中的相似特征或方面。如果描述的技术以不同的次序被执行，和/或如果在描述的***、架构、装置、或电路中的组件以不同的方式组合，和/或被其他组件或者它们的等同物代替或补充，则可实现合适的结果。因此，公开的范围不是由具体实施方式所限定，而是由权利要求和它们的等同物限定，并且在权利要求和它们的等同物的范围内的所有变化将被解释为被包括在本公开中。

Claims

1.一种更新句子生成模型的方法，包括：

使用第一解码模型生成与源句子对应的目标句子；

使用第二解码模型，计算与目标句子相关联的奖励信息，其中，第二解码模型被配置为以与由第一解码模型生成的句子的次序不同的次序生成句子；

基于计算的奖励信息，重新设置第一解码模型中的每个节点的权重。

2.根据权利要求1所述的方法，其中，计算奖励信息的步骤包括：

基于从第二解码模型生成包括在目标句子中的每个词的概率，来计算奖励信息。

3.根据权利要求2所述的方法，其中，计算奖励信息的步骤还包括：

使用源句子和在先前时间从第二解码模型输出的第一词，计算在当前时间从第二解码模型生成第二词的概率。

4.根据权利要求2所述的方法，其中，计算奖励信息的步骤包括：

使用包括在目标句子中的词以与目标句子中的所述词的次序不同的次序排列的序列，来计算奖励信息。

5.根据权利要求1所述的方法，其中，第一解码模型是包括循环神经网络的前向解码模型，

第二解码模型是包括循环神经网络的后向解码模型。

6.根据权利要求1所述的方法，其中，重新设置权重的步骤包括：

使用第一解码模型，计算与目标句子相关联的策略信息；

使用计算的策略信息和计算的奖励信息，重新设置与预设条件对应的权重。

7.根据权利要求6所述的方法，其中，计算策略信息的步骤包括：

基于从第一解码模型生成包括在目标句子中的每个词的概率，来计算策略信息。

8.根据权利要求7所述的方法，其中，计算策略信息的步骤还包括：

使用源句子和在先前时间从第一解码模型输出的第一词，计算在当前时间从第一解码模型生成第二词的概率。

9.根据权利要求6所述的方法，其中，计算权重的步骤包括：

重新设置权重使得由与多个目标句子中的每个目标句子相关联的奖励信息和策略信息定义的目标函数最大化，

其中，所述多个目标句子是使用第一解码模型从源句子生成的。

10.根据权利要求6所述的方法，其中，计算权重的步骤包括：

重新设置权重使得由目标函数和从第一解码模型生成源句子的预定正确句子的概率定义的损失函数最小化，

其中，多个目标句子是使用第一解码模型从源句子生成的，目标函数由与所述多个目标句子中的每个目标句子相关联的奖励信息和策略信息来定义。

11.根据权利要求1所述的方法，其中，生成目标句子的步骤包括：

基于响应于源句子而从第一解码模型输出的最终结果值之中的在预设范围内的最终结果值，生成多个目标句子。

12.根据权利要求1所述的方法，其中，生成目标句子的步骤包括：

基于响应于源句子中的词而在第一时间从第一解码模型输出的输出值，生成多个目标句子，

其中，计算奖励信息的步骤包括：

使用第二解码模型，计算与在第一时间生成的所述多个目标句子相关联的奖励信息。

13.根据权利要求1所述的方法，其中，生成目标句子的步骤包括：

通过对响应于源句子中的词而在第一时间从第一解码模型输出的输出值进行采样，来生成预设数量的目标句子，

其中，计算奖励信息的步骤包括：

使用第二解码模型，计算与所述预设数量的目标句子相关联的奖励信息。

14.根据权利要求1所述的方法，其中，生成目标句子的步骤包括：

基于响应于包括在源句子中的每个词而从第一解码模型输出的输出值，生成多个第一目标句子；

基于响应于源句子的整体而从第一解码模型输出的最终结果值之中的在预设范围内的最终结果值，生成多个第二目标句子。

15.根据权利要求1所述的方法，其中，计算奖励信息的步骤包括：

使用第二解码模型，计算与目标句子相关联的奖励信息，其中，第二解码模型被配置为以与由第一解码模型生成的句子的次序相反的次序生成句子。

16.根据权利要求14所述的方法，其中，计算奖励信息的步骤包括：

使用第二解码模型计算与所述多个第一目标句子相关联的第一奖励信息；

使用第二解码模型计算与所述多个第二目标句子相关联的第二奖励信息。

17.根据权利要求1所述的方法，还包括：

使用第二解码模型，生成与源句子对应的新的目标句子；

使用第一解码模型，计算与新的目标句子相关联的奖励信息；

基于计算的与新的目标句子相关联的奖励信息，重新设置第二解码模型中的每个节点的权重。

18.一种句子生成设备，包括：

生成器，被配置为使用第一解码模型生成与源句子对应的目标句子；

计算器，被配置为使用第二解码模型计算与目标句子相关联的奖励信息；

更新器，被配置为基于计算的奖励信息重新设置第一解码模型中的每个节点的权重。

19.根据权利要求18所述的句子生成设备，其中，计算器被配置为：使用包括在目标句子中的词以与目标句子中的词的次序不同的次序排列的序列，计算奖励信息。

20.根据权利要求19所述的句子生成设备，其中，计算器被配置为：通过使用源句子和在先前时间从第二解码模型输出的第一词计算在当前时间从第二解码模型生成第二词的概率，来计算奖励信息。

21.根据权利要求18所述的句子生成设备，其中，计算器被配置为：通过将在目标句子中包括的每个词中包括的字符被分离的序列输入到第二解码模型，来计算奖励信息。

22.根据权利要求21所述的句子生成设备，其中，计算器被配置为：通过使用源句子和在先前时间从第二解码模型输出的第一字符计算在当前时间从第二解码模型生成第二字符的概率，来计算奖励信息。

23.根据权利要求18所述的句子生成设备，其中，生成器被配置为：基于响应于源句子从第一解码模型输出的最终结果值之中的在预设范围内的最终结果值，生成多个目标句子。

24.根据权利要求18所述的句子生成设备，其中，生成器被配置为：基于响应于源句子中的词在第一时间从第一解码模型输出的输出值，生成多个目标句子，

计算器被配置为：使用第二解码模型，来计算与在第一时间生成的所述多个目标句子相关联的奖励信息。

25.根据权利要求18所述的句子生成设备，其中，生成器被配置为：基于响应于源句子中的每个词而从第一解码模型输出的输出值，生成多个第一目标句子，

基于响应于源句子的整体从第一解码模型输出的最终值之中的在预设范围内的最终结果值，生成多个第二目标句子。

26.根据权利要求25所述的句子生成设备，其中，计算器被配置为：使用第二解码模型，计算与所述多个第一目标句子相关联的第一奖励信息，

使用第二解码模型，计算与所述多个第二目标句子相关联的第二奖励信息。

27.根据权利要求18所述的句子生成设备，其中，生成器被配置为：使用第二解码模型，生成与源句子对应的新的目标句子，

计算器被配置为：使用第一解码模型，计算与新的目标句子相关联的奖励信息，

更新器被配置为：基于计算的奖励信息，重新设置第二解码模型中的每个节点的权重。

28.根据权利要求18所述的句子生成设备，其中，计算器被配置为：使用包括在目标句子中的词以与目标句子中的词的次序相反的次序排列的序列，计算奖励信息。