CN110046338A

CN110046338A - 一种上下文选择方法、装置、电子设备及存储介质

Info

Publication number: CN110046338A
Application number: CN201810035965.2A
Authority: CN
Inventors: 刘乐茂; 史树明
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2019-07-23
Anticipated expiration: 2038-01-15
Also published as: CN110046338B

Abstract

本发明实施例提供一种上下文选择方法、装置、电子设备及存储介质，该方法包括：获取源句子相应的源端向量表示序列；根据当前时刻需预测的目标元素，假定所述目标元素在源句子中对齐的目标源词；根据所述目标源词，从源句子中分隔出当前时刻相应的短语结构和半短语结构，其中，所述短语结构至少为确定性的；至少根据所述目标源词、所述短语结构、半短语结构和所述源端向量表示序列，确定当前时刻相应的上下文。本发明实施例可提升所捕捉的上下文的全面性，提升上下文选择的精度，为提升句法分析等结果的精度提供可能。

Description

一种上下文选择方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种上下文选择方法、装置、电子设备及存储介质。

背景技术

上下文选择是句法分析、机器翻译等过程的一个阶段，主要用于在解码器每次预测一个目标元素时，从源端的向量表示中选择上下文，以实现目标元素的预测。

以编码器和解码器架构的句法分析模型为例，在进行句法分析时，源句子(需进行句法分析的自然语言句子可称为源句子)输入句法分析模型后，编码器可生成源句子相应的源端向量表示序列(该源端向量表示序列包含源句子中的每个源词的向量表示)，解码器每次预测一个元素时(元素为句法分析结果的组成，由各个素构成的序列可形成句法分析结果)，句法分析模型中的注意力层可从源端的向量表示中选择上下文，以辅助元素的预测，从而在完成各个元素的预测后，生成句法分析结果。

上下文的选择主要通过注意力层实现，目前注意力层主要依赖基于概率的注意力机制，其通过生成一个离散概率分布，来表示当前预测的目标元素与源句子中源词的对齐概率，来实现上下文的选择。然而，本发明的发明人发现，基于概率的注意力机制并不能全面的捕捉上下文，如对句法分析场景中一些启发式的上下文并不能捕捉，导致上下文选择结果的精度降低，影响句法分析等结果的精度。

发明内容

有鉴于此，本发明实施例提供一种上下文选择方法、装置、电子设备及存储介质，以提升上下文选择的精度。

为实现上述目的，本发明实施例提供如下技术方案：

一种上下文选择方法，包括：

获取源句子相应的源端向量表示序列；

根据当前时刻需预测的目标元素，假定所述目标元素在源句子中对齐的目标源词；

根据所述目标源词，从源句子中分隔出当前时刻相应的短语结构和半短语结构；其中，所述短语结构至少为确定性的；

至少根据所述目标源词、所述短语结构、半短语结构和所述源端向量表示序列，确定当前时刻相应的上下文。

本发明实施例还提供一种上下文选择装置，包括：

源端向量序列获取模块，用于获取源句子相应的源端向量表示序列；

目标源词确定模块，用于根据当前时刻需预测的目标元素，假定所述目标元素在源句子中对齐的目标源词；

分隔模块，用于根据所述目标源词，从源句子中分隔出当前时刻相应的短语结构和半短语结构；其中，所述短语结构至少为确定性的；

上下文输出模块，用于至少根据所述目标源词、所述短语结构、半短语结构和所述源端向量表示序列，确定当前时刻相应的上下文。

本发明实施例还提供一种电子设备，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以实现上述所述的上下文选择方法的步骤。

本发明实施例还提供一种存储介质，所述存储介质存储有适于处理器执行的程序，以实现上述所述的上下文选择方法的步骤。

基于上述技术方案，本发明实施例提供的上下文选择方法，包括：获取源句子相应的源端向量表示序列；根据当前时刻需预测的目标元素，假定所述目标元素在源句子中对齐的目标源词；根据所述目标源词，从源句子中分隔出当前时刻相应的短语结构和半短语结构，其中，所述短语结构至少为确定性的；至少根据所述目标源词、所述短语结构、半短语结构和所述源端向量表示序列，确定当前时刻相应的上下文。本发明实施例在确定当前时刻相应的短语结构及半短语结构后，当前时刻相应的短语结构是可知的、确定性的，且当前时刻相应的半短语结构的起始词是可知的；因此根据所述目标源词、所述确定性的当前时刻相应短语结构、半短语结构中确定性的起始词、以及所述源端向量表示序列，确定当前时刻选择的上下文，可提升当前时刻选择的上下文的确定性，提升所捕捉的上下文的全面性，为提升句法分析结果的精度提供可能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1现有技术基于概率注意力机制选择上下文的示例图；

图2为本发明实施例提供的上下文选择方法的流程图；

图3为本发明实施例提供的上下文选择方法的另一流程图；

图4为本发明实施例基于确定性注意力机制选择上下文的示例图；

图5为本发明实施例提供的句法分析模型的结构示例图；

图6为本发明实施例提供的句法分析模型的另一结构示例图；

图7为本发明实施例提供的句法分析方法的流程图；

图8为句法树序列的示例图；

图9为本发明实施例提供的句法分析模型的训练方法流程图；

图10为本发明实施例提供的句法分析的场景示例图；

图11为本发明实施例提供的上下文选择装置的结构框图；

图12为本发明实施例提供的上下文选择装置的另一结构框图；

图13为本发明实施例提供的上下文选择装置的再一结构框图；

图14为电子设备的硬件结构框图。

具体实施方式

为便于理解现有技术存在的问题，以图1所示为例，源句子为“John has adog.”，在编码器对源句子生成相应的源端向量表示序列后，现有技术中注意力层基于概率注意力机制对于上下文的选择可如图1所示虚线，虚线表示的是一个离散概率分布；该离散概率分布具有数量与源句子中的源词数量相应的取值(如图1中离散概率分布具有5个取值)，每个取值对应于源句子中的一个源词；其中，一个概率取值表示解码器当前需预测的目标元素(如图1所示当前进行y₅的预测)，与该概率取值对应的源句子中的源词的对齐概率；

而本发明的发明人发现，在句法分析等场景中，具有一些启发式的上下文，比如图1中的y₃应该对齐到John，以此来辅助y₃预测时上下文的选择；然而，基于概率注意力机制的注意力层对于这种启发式的上下文往往缺乏捕捉，而由于缺乏这些很有信息量的启发式的上下文，将导致所选择的上下文的精度较低，影响句法分析结果的精度；这也是现有技术中普遍的基于概率注意力机制选择上下文，所存在的问题。

基于此，本发明实施例考虑在解码器预测生成每一元素时，使用基于确定性注意力机制的注意力层进行上下文的选择，以提升对于捕捉的上下文的全面性，提升上下文选择的精度。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图2为本发明实施例提供的上下文选择方法的流程图，该方法可应用于电子设备，电子设备可选用服务器(如在服务器侧实现句法分析过程等)，也可选用终端实现(如在终端侧实现句法分析过程等)；作为一种示例，图2所示的上下文选择方法可通过句法分析模型中的注意力层实现，该句法分析模型可能设置于服务器侧，由服务器实现句法分析过程，也可能设置于终端侧，由终端实现句法分析过程；

参照图2，本发明实施例提供的上下文选择方法可以包括：

步骤S100、根据当前时刻需预测的目标元素，假定所述目标元素在源句子中对齐的目标源词。

可选的，将源句子输入编码器，编码器对源句子中的各源词逐一进行向量生成，可得到源句子相应的源端向量表示序列；从而注意力层得到源句子相应的源端向量表示序列后，本发明实施例提供的基于确定性注意力机制的注意力层，可通过图2所示方法在各个时刻进行上下文的选择，一个时刻解码器一般可预测一个元素。

可选的，在当前时刻，当前时刻需预测的元素可称为是目标元素；以句法分析场景为例，元素是可以是句法分析结果的组成，可以理解的是，当前时刻需预测的目标元素是未知的，是当前时刻需预测的句法分析结果中的元素；如以句法树序列表示句法分析结果，则当前时刻需预测的目标元素可以认为是，是当前时刻需预测的句法树序列中的元素，句法树序列可由各个时刻预测得到的元素构成；句法树可以认为是句法分析结果的树状结构表示。

在需预测当前时刻的目标元素时，本发明实施例可假定所述目标元素在所述源句子中对齐的目标源词；所述目标源词可以认为是，所述目标元素在表示源句子中的某一源词的情况下，所述目标元素在源句子中所对应的源词；

可选的，由于当前时刻所预测的目标元素具有多种可能的值类型，因此当前时刻所预测的目标元素并不一定表示源句子中的某一源词；作为一种示例，元素可能的值类型的范围可以包括：终结符(一般以“XX”表示)，左括号(一般以“(”表示)，右括号(一般以“)”表示)；一般的，在目标元素的值类型为终结符时，所预测的目标元素才可对源句子中的某一源词进行表示，因此当前时刻所预测的目标元素并不一定表示源句子中的某一源词；

基于此，本发明实施例可假定当前时刻所预测的目标元素在表示源句子中的源词的情况下，假定所述目标元素在所述源句子中对齐的源词；例如，假定目标元素的值类型为终结符时，确定目标元素在源句子中对应的目标源词。

步骤S110、根据所述目标源词，从源句子中分隔出当前时刻相应的短语结构和半短语结构；其中，所述短语结构至少为确定性的。

可选的，在确定出所述目标源词后，本发明实施例可根据所述目标源词，从源句子中分隔出当前时刻相应的短语结构和半短语结构；在本发明实施例中，所述短语结构至少是确定性的，而所述半短语结构至少已知起始词；

可选的，短语结构和半短语结构可以均包含起始词和末尾词，短语结构可以是由短语结构的起始词和末尾词在源句子中所涵盖的源词构成(源句子中的词可称为源词)，半短语结构可以是由半短语结构的起始词和末尾词在源句子中所涵盖的源词构成；

在本发明实施例中，短语结构是确定性的，即短语结构的起始词和末尾词是可知的；作为一种可选示例，短语结构的末尾词可以是源句子中所述目标源词的前一词，起始词可以是短语结构的末尾词之前的词，可通过假定所述目标元素的值类型为右括号的情况进行确定；

在本发明实施例中，半短语结构至少可知起始词；作为一种可选示例，半短语结构的起始词可以是所述目标源词，末尾词可以是源句子中目标源词之后未知的任一词；当然本发明实施例也可支持半短语结构的末尾词可知的情况。

步骤S120、至少根据所述目标源词、所述短语结构、半短语结构和所述源端向量表示序列，确定当前时刻相应的上下文。

可选的，在进行每个时刻的元素预测时，本发明实施例可执行图2所示方法，进行相应的上下文选择；从而在每个时刻，得到相应选择的上下文，辅助解码器进行每个时刻的元素预测，由每个时刻预测得到的元素形成句法树序列，得到句法分析结果。

在本发明实施例中，在确定当前时刻相应的短语结构及半短语结构后，当前时刻相应的短语结构是可知的、确定性的，且当前时刻相应的半短语结构的起始词是可知的；因此根据所述目标源词、所述确定性的当前时刻相应短语结构、半短语结构中确定性的起始词、以及所述源端向量表示序列，确定当前时刻选择的上下文，可提升当前时刻选择的上下文的确定性，提升所捕捉的上下文的全面性，为提升句法分析结果的精度提供可能。

作为一种示例，可设源句子x由x₁至x_n的n个词构成，假定当前时刻需预测的目标元素在源句子中对齐的目标源词为x_t，当前时刻相应的短语结构为ρ(x_b，x_t-1)，其中x_b为所述短语结构的起始词，且所述短语结构的末尾词为所述目标源词x_t的前一词的情况；当前时刻相应的半短语结构为ρ(x_t，？)，其中？(问号)可表示源句子中目标源词x_t之后未知的任一词，x_b和x_t属于x₁至x_n中的源词；

则在确定所述目标源词，当前时刻相应的短语结构和半短语结构后，所选择的上下文c_t的定义可以如公式1；

c_t＝φ(ρ(x_b，x_t-1),ρ(x_t，？),x_t,E^x) (公式1)

其中，E^x表示编码器输出的源端向量表示序列；φ表示所述短语结构的起始词的向量表示、末尾词的向量表示、和所述半短语结构的起始词的向量表示的连接运算结果，与注意力层参数的点积。

上述公式1的计算可以认为是一个向量相关的计算，对于ρ(x_t，？)的末尾词可能未知的情况，可在计算过程中忽略ρ(x_t，？)的末尾词。

可选的，作为一种可选实现，φ的定义可如公式2所示；

其中，θ^c表示本发明实施例提供的基于确定性注意力机制的注意力层的参数，表示当前时刻相应的短语结构的起始词x_b的向量表示，表示当前时刻相应的短语结构的末尾词的向量表示，表示所述目标源词的向量表示；[；；]表示向量的连接运算。

由公式2可以看出，φ的定义在三个词x_b,x_t-1和x_t上，而如果编码器使用RNN(循环神经网络)来编码源句子，那么x_t的编码在一定程度上表达了与它相邻的词x_t-1的信息，因此，本发明也实现如下简化的φ的定义，如公式3所示；

进一步，类似的，x_t也可表达x_b的部分信息，可对φ的定义进行进一步的简化，如公式4所示；

相应的，上下文c_t的定义可表达为公式5：

相应的，在句法分析过程中，进行每一时刻的元素的预测时，可在每一时刻，确定相应的目标源词、短语结构和半短语结构后，以公式5进行每一时刻的上下文的选择，从而辅助解码器进行每一时刻的元素的预测，实现句法分析结果的得到。

需要说明的是，上述公式2、公式3和公式4所示的对φ的定义，可择一带入了公式1中，进行上下文的预测，本发明实施例并不限制；当然，公式5所示方式是较为简便的。

上述描述内容仅是前文步骤S120“至少根据所述目标源词、所述短语结构、半短语结构和所述源端向量表示序列，确定当前时刻相应的上下文”的一种可选方式，本发明实施例也可不限于上述的公式方式进行上下文的选择。

可选的，以元素可能的值类型范围包括：终结符，左括号，右括号为例；本发明实施例可预估当前时刻需预测的目标元素可能的值类型；并根据所预估的每一值类型的情况，进行目标源词、当前时刻相应的短语结构和半短语结构的确定；

可选的，图3示出了本发明实施例提供的上下文选择方法的另一流程图，参照图3，该方法可以包括：

步骤S200、假定当前时刻需预测的目标元素的值类型为终结符时，确定所述目标元素在所述源句子中对齐的目标源词。

可选的，当前时刻需预测的目标元素的可能的值类型的情况分为终结符，左括号，右括号这三种；由于目标元素还未预测出，是未知的，因此本发明实施例可假定目标元素的值类型为终结符，并确定相应的在源句子中对齐的目标源词。

作为一种示例，本发明实施例可在假定目标元素的值类型为终结符时，确定目标元素在已预测出的值类型为终结符的元素中所对应的序数，从而以所确定的序数，从源句子中确定相应序数的源词为目标源词；

以图4所示示例，源句子为“John has a dog.”，在当前时刻进行的是第5个时刻的解码(即需预测第5个时刻的元素y₅，y₅未知)时，已知前面4个时刻所预测出的元素为y₁＝(S，y₂＝(NP，y₃＝XX，y₄＝XX；

则可假定y₅的值类型为XX(终结符的表示)，并确定y₅的值类型为XX时，y₅在已预测的值类型为XX的元素中所对应的序数；从而以该序数，从源句子中确定相应序数的源词为目标源词；

由图4可以看出，在已预测的元素y₁至y₄中，已预测的值类型为XX的元素为y₃和y₄，因此可在假定y₅的值类型为XX时，确定y₅在已预测的值类型为XX的元素中所对应的序数为3；从而可确定源句子中第3个词“a”为当前需预测的目标元素y₅在源句子中对齐的目标源词。

同理，以当前时刻需预测y₄为例，假定y₄的值类型为XX时，其在已预测的值类型为XX的元素中所对应的序数为2，则y₄在源句子中对齐的源词为“has”；其他时刻需预测的元素，所假定的在源句子中对齐的源词的处理，与此同理。

步骤S210、假定当前时刻需预测的目标元素的值类型为右括号时，从所述源句子中确定当前时刻相应的短语结构的起始词，将所述目标源词的前一词作为所述短语结构的末尾词，根据所述短语结构的起始词和末尾词确定当前时刻相应的短语结构。

在确定目标源词后，本发明实施例可进行当前时刻相应的短语结构和半短语结构的确定。

由于短语结构是确定性的，在确定短语结构时，作为一种可选实现，本发明实施例可确定短语结构的起始词；可选的，本发明实施例可假定目标元素的值类型为右括号时，从已预测的元素中确定与目标元素最近的左括号开始的短语元素，确定该左括号开始的短语元素的后一预测出的值类型为终结符的元素，确定该后一预测出的值类型为终结符的元素，在已预测出的值类型为终结符的元素中所对应的序数，从源句子中确定该序数相应的源词为所述短语结构的起始词。

参照图4所示示例，在当前时刻进行的是第5个时刻的解码(即需预测第5个时刻的元素y₅，y₅未知)时，已知前面4个时刻所预测出的元素为y₁＝(S，y₂＝(NP，y₃＝XX，y₄＝XX；

假定y₅的值类型为“)”(右括号)时，意味着其对应一个短语结构，可从已预测的元素y₁至y₄中，确定与目标元素y₅最近的左括号开始的短语元素；由图4可看出，该左括号开始的短语元素为y₂(“(NP”)，从而可确定y₂后面预测出的最近的值类型为XX的元素(称为y₂后一预测出的值类型为终结符的元素)，由图4可看出，该元素为y₃；从而确定y₃在已预测出的值类型为XX的元素中所对应的序数为1，相应的，当前时刻相应的短语结构的起始词为源句子中序数为1的源词“John”。

可选的，需预测第4个时刻的元素y₄时，相应的短语结构的起始词的确定方式同理。

在确定出当前时刻相应的短语结构的起始词后，可将所述目标源词在源句子中的前一词，作为所述短语结构的末尾词，从而以所述短语结构的起始词和末尾词在源句子中所涵盖的源词，形成当前时刻相应的源句子；

参照图4所示示例，在当前时刻需预测y₅时，确定目标源词为“a”，当前时刻相应的短语结构的起始词为“John”后，则可以目标源词“a”的前一词“has”作为短语结构的末尾词，形成(John，has)的短语结构。

步骤S220、以所述目标源词为当前时刻相应的半短语结构的起始词，设置所述半短语结构的末尾词为所述目标源词后任一未知的源词，形成所述半短语结构。

在确定目标源词后，可假定当前时刻需预测的目标元素的值类型为左括号(“(”)，其意味着将产生一个半短语结构，可将所确定目标源词作为所述半短语结构的起始词，并设置半短语结构的末尾词为源句子中所述目标源词之后的任一未知的源词，形成所述半短语结构；

参照图4所示示例，在当前时刻需预测y₅时，确定目标源词为“a”，并设置半短语结构的末尾词未知(以“？”表示)，则形成(a，？)的半短语结构。

步骤S230、至少根据所述目标源词、所述短语结构、半短语结构和所述源端向量表示序列，确定当前时刻相应的上下文。

可选的，作为一种可选实现，步骤S230可参照上文描述的相应公式实现。

以句法分析场景为例，在进行各个时刻的句法分析结果的元素预测时，可以图3所示方法进行各个时刻的上下文选择，辅助解码器进行各个时刻的元素的预测，得到句法分析结果。

以句法分析场景为例，上文描述的上下文选择方法可由句法分析模型的注意力层实现，且该注意力层可基于确定性注意力机制实现；具体的，句法分析模型在进行句法分析的过程，可使用本发明实施例提供的上下文选择方法，进行各个时刻的上下文选择。在本发明实施例中，句法分析模型可基于神经网络实现，基于神经网络的句法分析模型的一种可选结构可如图5所示，包括：编码器和解码器；其中解码器中设置有基于确定性注意力机制的注意力层。

可选的，在进行句法分析的过程中，源句子可输入句法分析模块，由编码器生成源句子相应的源端向量表示序列；所述源句子可以包括至少一个源词，一个源词可对应所述源端向量表示序列中的一个表示向量；

在得到所述源端向量表示序列后，注意力层可利用本发明实施例提供的上下文选择方法，选择当前时刻的上下文，从而解码器可根据当前时刻的上下文，预测出当前时刻的目标元素；

进而以上述方式不断的在各个时刻，循环的以注意力层进行各个时刻的上下文选择，和，以解码器预测各个时刻的元素，从而将各个时刻预测的元素组成的序列作为句法树序列，得到句法分析结果，实现对于源句子的句法分析。

可选的，基于神经网络的句法分析器的框架可采用多个序列化神经网络实现，如可采用多个RNN(循环神经网络)实现；作为一种示例，如图6所示，编码器可由一个序列化神经网络(如一个RNN)实现，如编码器可基于双向RNN实现；解码器的可由另一个序列化神经网络实现，如可基于自左向右的RNN实现；注意力层可由序列化神经网络中的网络层实现，用于基于编码器的输出，进行各个时刻的上下文的选择。

结合图5和图6所示，图7示出了本发明实施例提供的句法分析方法的流程图，该句法分析方法可应用于电子设备，电子设备可选用服务器，也可选用终端实现；具体可由电子设备内设置的句法分析模型实现句法分析过程；

参照图7，本发明实施例提供的句法分析方法可以包括：

步骤S300、编码器读入源句子，输出相应的源端向量表示序列。

可选的，源句子包括的各源词可构成输入序列，输入到编码器后，编码器可利用RNN压缩表示的性质，将源句子中离散的源词转换成连续的空间表示，将所转换得到的连续的空间表示输入到双向RNN(Recurrent Neural Networks，循环神经网络)中，得到相应的源端向量表示序列。

步骤S310、在当前时刻，注意力层选择当前时刻的上下文。

可选的，步骤S310的处理可基于上文描述的本发明实施例提供的上下文选择方法实现；

具体的，可根据当前时刻需预测的目标元素，假定所述目标元素在所述源句子中对齐的目标源词；根据所述目标源词，从源句子中分隔出当前时刻相应的短语结构和半短语结构，其中，所述短语结构至少为确定性的；从而至少根据所述目标源词、所述短语结构、半短语结构和所述源端向量表示序列，确定当前时刻相应的上下文。

步骤S320、解码器根据当前时刻的上下文，输出当前时刻预测的目标元素。

可选的，可设当前时刻解码器状态为s_t，当前时刻需预测的目标元素为y_t，则在当前时刻，解码器可根据当前时刻选择的上下文c_t，前一时刻解码器状态s_t-1，前一时刻已预测的元素y_t-1，确定当前时刻的解码器状态s_t(这个过程可以认为是一个标准的RNN操作)；

进而，解码器可根据当前时刻的解码端状态s_t，当前时刻的上下文c_t，和前一时刻已预测的元素y_t-1，确定当前时刻预测的目标元素y_t。

以此不断的在各个时刻，循环的进行注意力层和解码器的处理(即在各个时刻重复执行步骤S310和S320)，得到各个时刻所生成的元素，由各个时刻生成的元素组成的序列，形成句法树序列，得到句法分析结果。

可选的，句法分析结果可以是句法树序列，如图8所示，图8所示是一个句法树的自上而下(top-down)的序列化过程，上半部分是句法树，下半部分是序列化的结果，中间的虚线表示XX所表达的叶子节点。

基于本发明实施例提供的确定性的注意力机制，句法分析模型训练过程涉及的上下文选择过程可适应调整；可选的，图9示出了句法分析模型的一种可选训练方法流程，该训练方法流程可应用于电子设备，电子设备可选用服务器，也可选用终端实现；

参照图9，本发明实施例提供的句法分析模型的训练过程可以包括：

步骤S400、获取源句子样本。

源句子样本可以认为是训练句法分析模型所使用的句子样本，源句子样本可由给定的标准书库获取；

在训练句法分析模型时，本发明实施例可将各个源句子样本逐一的输入句法分析模型中，以最大化似然函数分数为目标，迭代的更新句法分析模型的参数(包含了本发明实施例提供的基于确定性注意力机制的注意力层的参数)，从而迭代完成后，完成句法分析模型的训练，具体方式可如下步骤所示。

步骤S410、将所述源句子样本输入句法分析模型，所述句法分析模型包括：编码器和解码器；所述解码器设置有基于确定性注意力机制的注意力层。

步骤S420、由所述编码器确定所述源句子样本相应的源端向量表示序列。

步骤S430、在当前时刻，由所述注意力层根据当前时刻需预测的目标元素，假定所述目标元素在所述源句子中对齐的目标源词；根据所述目标源词，从源句子中分隔出当前时刻相应的短语结构和半短语结构，其中，所述短语结构至少为确定性的；至少根据所述目标源词、所述短语结构、半短语结构和所述源端向量表示序列，确定当前时刻相应的上下文。

在句法分析模型的训练过程中，注意力层选择上下文的方式，可通过本发明实施例提供的上下文选择方法实现；

可设当前时刻需预测的目标元素为x_t，相应的短语结构为ρ(x_b，x_t-1)，半短语结构为ρ(x_t，？)，E^x表示源端向量表示序列；则当前时刻的上下文c_t的选择可基于如下公式实现：

c_t＝φ(ρ(x_b，x_t-1),ρ(x_t，？),x_t,E^x)；

进一步，φ可定义为其中，θ^c表示本发明实施例提供的基于确定性注意力机制的注意力层的参数，表示所述目标源词的向量表示；

从而前时刻的上下文c_t的选择可基于公式实现。

步骤S440、解码器根据当前时刻相应的上下文，预测当前时刻相应的目标元素，以将各个时刻相应预测的元素构成所述源句子样本相应的句法树序列，得到所述源句子样本的句法分析结果。

可选的，步骤S440的处理可参照前文步骤S320所示。

步骤S450、根据所述源句子样本，与所述源句子样本相应的句法树序列，确定相应的似然函数分数。

步骤S460、至少以最大化所述似然函数分数为训练目标，迭代更新句法分析模型的参数，直至达到迭代终止条件，完成句法分析模型的训练；其中，句法分析模型的参数至少包括：所述基于确定性注意力机制的注意力层的参数。

可选的，句法分析模型的训练可以通过最大化如下似然函数分数为目标函数；

其中，xⁱ为第i个源句子(即第i个输入序列)，yⁱ为第i个源句子对应的句法树序列；θ表示句法分析模型的参数，需要进行迭代的更新，θ中包含了所述基于确定性注意力机制的注意力层的参数θ^c；

可选的，设输入句法分析模型进行训练的源句子样本为x，x＝<x₁,x₂,...x_|x|>，其长度为|x|，设源句子样本相应的句法树序列为y，y＝<y₁,y₂,...y_|y|>，其长度为|y|，则P(yx；θ)可以通过如下进行定义；

其中，x表示当前输入的源句子样本，y表示当前输入的源句子样本相应的句法树序列，|y|表示该句法树序列的长度，y_t表示当前时刻得到的句法树序列的元素；h′_t＝f′(h′_t-1，y_t-1，c_t)表示解码器解码过程中的隐含神经元，其可通过一个循环神经网络来定义。

需要说明的是，目标函数可至少以似然函数分数实现，但在实际情况下，目标函数也可加入其他的数值，而不仅限于似然函数分数，具体可视句法分析模型的训练要求而定，但无论句法分析模型的训练要求如何改变，模型训练过程和句法分析过程在进行上下文选择时，均可基于本发明实施例提供的上下文选择方法实现。

基于训练得到的句法分析模型，所进行的句法分析过程可如图7所示，此次不再赘述；可选的，基于训练得到的句法分析模型所进行的句法分析的场景示例，可如图10所示，具体可在服务器设置句法分析模型，由服务器接收终端的句法分析请求，来进行句法分析；可选的，如图10所示，句法分析的应用场景过程可以包括：

S1、用户在终端输入待进行句法分析的源句子，终端向服务器发送包含源句子的句法分析请求。

S2、服务器接收终端发送的句法分析请求后，调用句法分析模型；所述句法分析模型包括编码器和解码器，所述解码器包含基于确定性注意力机制的注意力层。

S3、服务器将所述源句子输入句法分析模型，通过所述句法分析模型确定所述源句子相应的句法树序列，得到句法分析结果。

其中，句法分析模型在对源句子进行句法分析的过程中，可由基于确定性注意力机制的注意力层，依据本发明实施例提供的上下文选择方法进行上下文选择；

具体的：注意力层可根据当前时刻需预测的目标元素，假定所述目标元素在所述源句子中对齐的目标源词；根据所述目标源词，从源句子中分隔出当前时刻相应的短语结构和半短语结构，其中，所述短语结构至少为确定性的；至少根据所述目标源词、所述短语结构、半短语结构和所述源端向量表示序列，确定当前时刻相应的上下文。

S4、服务器通过句法分析模型输出源句子相应的句法树序列，并反馈给终端。

本发明实施例提供的上下文选择方法的主要核心在于注意力机制的定义方式上，本发明实施例采用了确定性的方式来选择解码中的上下文信息，从而提升了捕捉的上下文的全面性，提升了上下文选择的精度；

可选的，本发明实施例提供的上下文选择方法可应用于句法分析场景，句法分析模型可基于序列化的神经网络模型实现，在训练句法分析模型时，可以依赖并行提高训练效率，如在使用1个GPU的情况下，只需要1天就可以完成训练句法分析模型的训练；同时，从句法分析的精度上来看，在两种公开的数据集PTB(Penn Treebank)和CTB(Chinese PennTreebank)上，应用本发明实施例提供的上下文选择方法的句法分析模型，可以显著的提升句法分析结果的准确性。

下面对本发明实施例提供的上下文选择装置进行介绍，下文描述的上下文选择装置可以认为是，电子设备为实现本发明实施例提供的上下文选择方法，所需设置的程序模块。下文描述的上下文选择装置的内容，可与上文描述的上下文选择方法的内容，相互对应参照。

图11为本发明实施例提供的上下文选择装置的结构框图，该上下文选择装置可应用于电子设备，电子设备可选用服务器，也可选用终端实现；

参照图11，本发明实施例提供的上下文选择装置可以包括：

源端向量序列获取模块100，用于获取源句子相应的源端向量表示序列；

目标源词确定模块200，用于根据当前时刻需预测的目标元素，假定所述目标元素在源句子中对齐的目标源词；

分隔模块300，用于根据所述目标源词，从源句子中分隔出当前时刻相应的短语结构和半短语结构；其中，所述短语结构至少为确定性的；

上下文输出模块400，用于至少根据所述目标源词、所述短语结构、半短语结构和所述源端向量表示序列，确定当前时刻相应的上下文。

可选的，目标源词确定模块200，用于根据当前时刻需预测的目标元素，假定所述目标元素在源句子中对齐的目标源词，具体包括：

假定所述目标元素的值类型为终结符，确定所述目标元素在所述源句子中对齐的目标源词；其中，所述目标元素可能的值类型包括：终结符，左括号和右括号。

可选的，目标源词确定模块200，用于假定所述目标元素的值类型为终结符，确定所述目标元素在所述源句子中对齐的目标源词，具体包括：

在假定所述目标元素的值类型为终结符时，确定所述目标元素在已预测出的值类型为终结符的元素中所对应的序数；

以所确定的序数，从源句子中确定相应序数的源词为所述目标源词。

可选的，分隔模块300，用于根据所述目标源词，从源句子中分隔出当前时刻相应的短语结构，具体包括：

假定所述目标元素的值类型为右括号，从所述源句子中确定当前时刻相应的短语结构的起始词，将所述目标源词的前一词作为所述短语结构的末尾词，根据所述短语结构的起始词和末尾词确定当前时刻相应的短语结构。

可选的，分隔模块300，用于假定所述目标元素的值类型为右括号，从所述源句子中确定当前时刻相应的短语结构的起始词，具体包括：

在假定所述目标元素的值类型为右括号时，从已预测的元素中确定与所述目标元素最近的左括号开始的短语元素；

确定该左括号开始的短语元素的后一预测出的值类型为终结符的元素，及确定所述后一预测出的值类型为终结符的元素，在已预测出的值类型为终结符的元素中所对应的序数，从源句子中确定该序数相应的源词为所述短语结构的起始词。

可选的，分隔模块300，用于根据所述目标源词，从源句子中分隔出当前时刻相应的半短语结构，具体包括：

假定所述目标元素的值类型为左括号，以所述目标源词为所述半短语结构的起始词，设置所述半短语结构的末尾词为所述目标源词后任一未知的源词，形成所述半短语结构。

可选的，上下文输出模块400，用于至少根据所述目标源词、所述短语结构、半短语结构和所述源端向量表示序列，确定当前时刻相应的上下文，具体包括：

根据公式c_t＝φ(ρ(x_b，x_t-1),ρ(x_t，？),x_t,E^x)确定当前时刻相应的上下文；

其中，c_t表示当前时刻相应的上下文，x_t为所述目标源词，x_b为所述短语结构的起始词，E^x为所述源句子相应的源端向量表示序列，ρ(x_b，x_t-1)为当前时刻相应的短语结构，ρ(x_t，？)为当前时刻相应的半短语结构。

可选的，φ的定义包括：

其中，θ^c表示基于确定性注意力机制的注意力层的参数，表示当前时刻相应的短语结构的起始词x_b的向量表示，表示当前时刻相应的短语结构的末尾词的向量表示，表示所述目标源词的向量表示

或，

可选的，在句法分析场景下，可由句法分析模型中的基于确定性注意力机制的注意力层，执行本发明实施例提供的上下文选择方法；其中，所述句法分析模型包括：编码器和解码器，所述解码器设置有所述注意力层；

可选的，图12示出了本发明实施例提供的上下文选择装置的另一结构框图，结合图11和图12所示，还包括：

编码模块500，用于将源句子输入所述句法分析模型，输出所述源句子相应的源端向量表示序列；

解码模块600，用于在确定当前时刻相应的上下文后，根据当前时刻相应的上下文，输出当前时刻预测的目标元素，以由各个时刻预测得到的元素形成句法树相应的序列，得到句法分析结果。

可选的，解码模块600，用于根据当前时刻相应的上下文，输出当前时刻预测的目标元素，具体包括：

根据当前时刻相应的上下文，前一时刻解码器状态，前一时刻已预测的元素，确定当前时刻的解码器状态；

根据当前时刻的解码端状态，当前时刻相应的上下文，和前一时刻已预测的元素，确定当前时刻预测的目标元素。

可选的，图13示出了本发明实施例提供的上下文选择装置的再一结构框图，结合图12和图13所示，还包括：

训练模块700，用于获取源句子样本；将所述源句子样本输入句法分析模型；由所述编码器确定所述源句子样本相应的源端向量表示序列；在确定当前时刻相应的上下文后，由所述解码器根据当前时刻相应的上下文，预测当前时刻相应的目标元素，以将各个时刻相应预测的元素构成所述源句子样本相应的句法树序列；根据所述源句子样本，与所述源句子样本相应的句法树序列，确定相应的似然函数分数；至少以最大化所述似然函数分数为训练目标，迭代更新句法分析模型的参数，直至达到迭代终止条件，以训练句法分析模型；其中，句法分析模型的参数至少包括：所述注意力层的参数。

本发明实施例提供的上下文选择装置可应用于电子设备，如可应用于服务器等；可选的，电子设备的硬件结构框图可如图14所示，包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器调用所述程序，以实现本发明实施例提供的上下文选择方法的步骤。

可选的，所述程序的功能可参照上文相应部分描述。

本发明实施例还提供一种存储介质，该存储介质存储有适于处理器执行的程序，以实现本发明实施例提供的上下文选择方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种上下文选择方法，其特征在于，包括：

获取源句子相应的源端向量表示序列；

2.根据权利要求1所述的上下文选择方法，其特征在于，所述根据当前时刻需预测的目标元素，假定所述目标元素在源句子中对齐的目标源词包括：

3.根据权利要求2所述的上下文选择方法，其特征在于，所述假定所述目标元素的值类型为终结符，确定所述目标元素在所述源句子中对齐的目标源词包括：

4.根据权利要求2-3任一项所述的上下文选择方法，其特征在于，所述根据所述目标源词，从源句子中分隔出当前时刻相应的短语结构包括：

5.根据权利要求4所述的上下文选择方法，其特征在于，所述假定所述目标元素的值类型为右括号，从所述源句子中确定当前时刻相应的短语结构的起始词包括：

6.根据权利要求2-3任一项所述的上下文选择方法，其特征在于，所述根据所述目标源词，从源句子中分隔出当前时刻相应的半短语结构包括：

7.根据权利要求1所述的上下文选择方法，其特征在于，所述至少根据所述目标源词、所述短语结构、半短语结构和所述源端向量表示序列，确定当前时刻相应的上下文包括：

8.根据权利要求7所述的上下文选择方法，其特征在于，所述φ的定义包括：

或，

9.根据权利要求1所述的上下文选择方法，其特征在于，所述上下文选择方法由句法分析模型中的基于确定性注意力机制的注意力层执行，所述句法分析模型包括：编码器和解码器，所述解码器设置有所述注意力层；

所述方法还包括：

将源句子输入所述句法分析模型，由所述编码器输出所述源句子相应的源端向量表示序列；

在确定当前时刻相应的上下文后，由所述解码器根据当前时刻相应的上下文，输出当前时刻预测的目标元素，以由各个时刻预测得到的元素形成句法树相应的序列，得到句法分析结果。

10.根据权利要求9所述的上下文选择方法，其特征在于，所述由所述解码器根据当前时刻相应的上下文，输出当前时刻预测的目标元素包括：

解码器根据当前时刻相应的上下文，前一时刻解码器状态，前一时刻已预测的元素，确定当前时刻的解码器状态；

解码器根据当前时刻的解码端状态，当前时刻相应的上下文，和前一时刻已预测的元素，确定当前时刻预测的目标元素。

11.根据权利要求9或10所述的上下文选择方法，其特征在于，所述方法还包括：

获取源句子样本；

将所述源句子样本输入句法分析模型；

由所述编码器确定所述源句子样本相应的源端向量表示序列；

在确定当前时刻相应的上下文后，由所述解码器根据当前时刻相应的上下文，预测当前时刻相应的目标元素，以将各个时刻相应预测的元素构成所述源句子样本相应的句法树序列；

根据所述源句子样本，与所述源句子样本相应的句法树序列，确定相应的似然函数分数；

至少以最大化所述似然函数分数为训练目标，迭代更新句法分析模型的参数，直至达到迭代终止条件，以训练句法分析模型；其中，句法分析模型的参数至少包括：所述注意力层的参数。

12.一种上下文选择装置，其特征在于，包括：

13.根据权利要求12所述的上下文选择装置，其特征在于，所述目标源词确定模块，用于根据当前时刻需预测的目标元素，假定所述目标元素在源句子中对齐的目标源词，具体包括：

假定所述目标元素的值类型为终结符，确定所述目标元素在所述源句子中对齐的目标源词；其中，所述目标元素可能的值类型包括：终结符，左括号和右括号；

所述分隔模块，用于根据所述目标源词，从源句子中分隔出当前时刻相应的短语结构，具体包括：

假定所述目标元素的值类型为右括号，从所述源句子中确定当前时刻相应的短语结构的起始词，将所述目标源词的前一词作为所述短语结构的末尾词，根据所述短语结构的起始词和末尾词确定当前时刻相应的短语结构；

所述分隔模块，用于根据所述目标源词，从源句子中分隔出当前时刻相应的半短语结构，具体包括：

14.一种电子设备，其特征在于，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以实现权利要求1-11任一项所述的上下文选择方法的步骤。

15.一种存储介质，其特征在于，所述存储介质存储有适于处理器执行的程序，以实现权利要求1-11任一项所述的上下文选择方法的步骤。