WO2021143211A1

WO2021143211A1 - 句子对匹配方法、装置和计算机设备和存储介质

Info

Publication number: WO2021143211A1
Application number: PCT/CN2020/119372
Authority: WO
Inventors: 朱威; 顾婷婷; 李恬静
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-07-27
Filing date: 2020-09-30
Publication date: 2021-07-22
Also published as: CN111858893A; CN111858893B

Abstract

本申请涉及人工智能领域，提供一种句子对匹配方法，包括：基于控制器各参数的可选参数值，初始化各参数的参数值，使控制器根据各参数的参数值，生成待确定注意力机制；将待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度；根据匹配准确度和当前迭代次数，确定不满足预设终止条件时，对控制器各参数进行调整，生成新的待确定注意力机制；返回结合到句子对匹配模型的编码层中的步骤，直至满足预设迭代条件，获得最终注意力机制；将待匹配句子对输入到结合了最终注意力机制的句子对匹配模型中进行匹配度分析，获得句子对匹配结果。采用本方法能够提高句子对匹配结果的准确率。

Description

句子对匹配方法、装置和计算机设备和存储介质

本申请要求于2020年07月27日提交中国专利局、申请号为202010732106.6，发明名称为“句子对匹配方法、装置和计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种句子对匹配方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，出现了自然语言处理技术，基于自然语言处理技术使人与计算机之间用自然语言进行有效通信。而自然语言处理技术的自然语言理解，是基于句子对匹配模型为基础模型的，如：一个问答***，是基于句子对匹配模型为基础模型，实现自动问答的。而句子对匹配模型的最核心部分是句子间注意力机制，句子间注意力机制直接决定了句子对匹配模型的准确度和可靠性。

但是目前的句子间注意力机制建模都是需要算法工程师针对自己拥有的数据和经验多次手动调整模型，最终得到算法工程师认为最优的句子间注意力机制，发明人意识到，将该句子注意力机制应用到句子对匹配模型，并不一定能够提高句子对匹配模型的精度，因此，导致句子对匹配结果的准确率低。

技术问题

基于此，有必要针对上述技术问题，提供一种能够提高句子对匹配结果的准确率的句子对匹配方法、装置、计算机设备和存储介质。

技术解决方案

一种句子对匹配方法，所述方法包括：

基于控制器各参数的可选参数值，初始化各所述参数的参数值，使所述控制器根据各所述参数的参数值，生成待确定注意力机制；

将所述待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度；

根据所述匹配准确度和当前迭代次数，确定是否满足预设终止条件；

当不满足预设终止条件时，对所述控制器各所述参数进行调整，生成新的待确定注意力机制；

返回所述将所述待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度的步骤，直至满足预设迭代条件，获得所述句子对匹配模型的最终注意力机制；

将获取的待匹配句子对输入到结合了所述最终注意力机制的所述句子对匹配模型中，获得句子对匹配结果。

一种句子对匹配装置，所述装置包括：

参数值确定模块，用于基于控制器各参数的可选参数值，初始化各所述参数的参数值，使所述控制器根据各所述参数的参数值，生成待确定注意力机制；

匹配准确度获得模块，用于将所述待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度；

判断模块，用于根据所述匹配准确度和当前迭代次数，确定是否满足预设终止条件；

参数调整模块，用于当不满足预设终止条件时，对所述控制器的参数进行调整，生成新的待确定注意力机制；

注意力机制获得模块，用于返回所述将所述待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度的步骤，直至满足预设迭代条件，获得所述句子对匹配模型的最终注意力机制；

匹配度分析模块，用于将获取的待匹配句子对输入到结合了所述最终注意力机制的所述句子对匹配模型中进行匹配度分析，获得句子对匹配结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种句子对匹配方法的步骤：

将获取的待匹配句子对输入到结合了所述最终注意力机制的所述句子对匹配模型中进行匹配度分析，获得句子对匹配结果。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种句子对匹配方法的步骤：

有益效果

上述句子对匹配方法、装置、计算机设备和存储介质，当需要为句子对匹配模型构建注意力机制时，基于控制器各参数的可选参数值，初始化各参数的参数值，使控制器根据各所述参数的参数值，自动生成待确定注意力机制，通过将待确定注意力机制结合到句子对匹配模型中输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度；根据匹配准确度和当前迭代次数判断生成的待确定注意力机制是否满足要求；不满足更新控制器的参数，生成新的待确定注意力机制继续判断生成的待确定注意力机制是否满足要求，直至获得满足要求的最终注意力机制，获得的最终注意力机制是最适合句子对匹配模型，将结合了最终注意力机制的句子对匹配模型，从注意力机制的方面考虑，是可以使句子对匹配模型得精度达到最优，通过该句子对匹配模型对待匹配句子对进行匹配度分析，获得句子对匹配结果的精度也是最优的，从而提高了句子对匹配结果的准确率。

附图说明

图1为一个实施例中句子对匹配方法的流程示意图；

图2为一个实施例中句子对匹配模型的结构示意图；

图3为一个实施例中注意力机制与编码层结合的结构示意图；

图4为一个实施例中句子对匹配装置的结构框图；

图5为另一个实施例中句子对匹配装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

本发明的最佳实施方式

在一个实施例中，如图1所示，提供了一种句子对匹配方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的***，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤S220，基于控制器各参数的可选参数值，初始化各参数的参数值，使控制器根据各参数的参数值，生成待确定注意力机制。

其中，控制器是用于自动构建句子间注意力机制的自动建模***的控制器，该控制器由一个循环神经网络组成，用于决定注意力机制的算法逻辑的神经网络控制器。控制器各参数是影响注意力机制的算法逻辑的决定参数，根据控制器各参数对应的参数值，决定注意力机制的算法的逻辑，从而生成待确定注意力机制。待确定注意力机制是控制器根据初始化后的各参数的参数值生成的注意力机制，该注意力机制需要与当前需要结合注意力机制的句子对匹配模型进行结合，进一步确定该注意力机制是否是用于结合到该句子对匹配模型最优的注意力机制。

步骤S240，将待确定注意力机制结合到句子对匹配模型中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度。

其中，句子对匹配模型是理解句子语义，理解句子之间的语义关系的模型，如图2所示，一对句子（句子A和句子B）输入进来，分别进行嵌入层，编码层和池化层，最后进行特征提取，根据预测分数，做出语义是否匹配的判断，进而实现语义解析。其中，句子间注意力机制发生在编码层。编码层是由一个或者多个相同结构的神经网络层叠加组成。每层其中包含多个算子，算子分为两类，只进行自身编码的算子（如text-CNN等经典网络），和进行注意力机制的注意力算子。样本数据集是用于对句子对匹配模型进行训练的样本数据的集合，样本数据根据句子对匹配模型的应用场景确定，句子对匹配模型使用到不同的应用场景，对样本数据进行训练使用的样本数据不同，样本数据不同，结合的注意力机制的算法逻辑不同。匹配准确度是句子对匹配模型结合了待确定注意力机制后，句子对匹配模型进行句子匹配的结果的准确度。

注意力算子的内部计算一般流程如下（以句子1到句子2为例，句子2到句子1的是对称的）：

句子1的表征为q，句子2的表征为k，v(这里k==v，重复两次是为了数学符号方便表示)；这3个张量的形状都是[bsz，seq_len，hidden_dim](bsz表示一个batch的数据量，seq_len表示句子长度最大值，hidden_dim表示隐状态向量长度)。

句子1对句子2的自注意力，先将3个张量转到多个注意力头上：Q=W_q*q；K=W_k*k；V=W_v*v，这里Q，K，V形状分别为[bsz，eq_len，n_head*head_size]，进行改变形状操作后，形状改为[bsz，seq_len，n_head，head_size]，这里n_head是注意力头的个数，head_size是注意力头上面的隐状态向量长度。句子1对句子2的自注意力，先计算注意力权重，交互操作：attention_weight=f_n(Q，K)；然后计算注意力后的表征：attention_weight先归一化，即在seq_len维度，权重相加为1，然后attention_weight * V，将输出结果与句子对匹配模型中自身编码算子的其他部分结合起来，来共同表征句子1的特征。

步骤S260，根据匹配准确度和当前迭代次数，确定是否满足预设终止条件。

其中，当前迭代次数是当前是第几次根据各参数的参数值循环生成待确定注意力机制与句子对匹配模型结合，训练并验证获得匹配准确度。预设终止条件是预先设定用于判断是否得到句子对匹配模型的最优注意力机制的条件。

步骤S280，当不满足预设终止条件时，对控制器各参数进行调整，生成新的待确定注意力机制。

其中，当不满足预设终止条件时，调整控制器各参数的参数值，使控制器根据各参数调整后的参数值，生成新的待确定注意力机制。调整控制器各参数的参数值时，基于各参数的可选参数值，对各参数中的一项或多项的参数值进行调整。

步骤S300，返回将待确定注意力机制与句子对匹配模型的编码层进行结合，获得待确定句子对匹配模型的步骤，直至满足预设迭代条件，获得句子对匹配模型的最终注意力机制。

其中，最终注意力机制是最终用于结合到句子对匹配模型中的注意力机制，该注意力机制是句子对匹配模型从注意力机制层面考虑，使句子对匹配模型在句子对匹配的准确度最高的注意力机制。对控制器各参数进行调整，生成新的待确定注意力机制后，将新的待确定注意力机制结合到句子对匹配模型中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度，根据匹配准确度和当前迭代次数，确定是否满足预设终止条件，直至满足预设迭代条件，获得句子对匹配模型的最终注意力机制。

步骤S320，将获取的待匹配句子对输入到结合了最终注意力机制的句子对匹配模型中进行匹配度分析，获得句子对匹配结果。

其中，待匹配句子对是需要进行匹配度分析来确定两者之间是否具备某种关系的句子对。句子对匹配模型是理解句子语义，理解句子之间的语义关系的模型，如图2所示，一对待匹配句子对（句子A和句子B）输入进来，分别进行嵌入层，编码层和池化层，最后进行特征提取，根据预测分数，做出语义是否匹配的判断，进而实现语义解析。该句子对匹配模型应用于问答***，实现语义解析。句子对匹配结果是对待匹配句子对进行匹配度分析后，获得的预测结果，该结果可以为预测分数，如：匹配度为90分等，预测分数分数越高，该句子对就越匹配。

上述句子对匹配方法中，当需要为句子对匹配模型构建注意力机制时，基于控制器各参数的可选参数值，初始化各参数的参数值，使控制器根据各所述参数的参数值，自动生成待确定注意力机制，通过将待确定注意力机制结合到句子对匹配模型中输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度；根据匹配准确度和当前迭代次数判断生成的待确定注意力机制是否满足要求；不满足更新控制器的参数，生成新的待确定注意力机制继续判断生成的待确定注意力机制是否满足要求，直至获得满足要求的最终注意力机制，获得的最终注意力机制是最适合句子对匹配模型，将结合了最终注意力机制的句子对匹配模型，从注意力机制的方面考虑，是可以使句子对匹配模型得精度达到最优，通过该句子对匹配模型对待匹配句子对进行匹配度分析，获得句子对匹配结果的精度也是最优的，从而提高了句子对匹配结果的准确率。

在一个实施例中，基于控制器各参数的可选参数值，初始化各参数的参数值，使控制器根据各参数的参数值，生成待确定注意力机制，包括：基于控制器各参数的可选参数值，随机从各参数的可选参数值中，选定控制器各参数的参数值，使控制器根据各参数的参数值，生成待确定注意力机制。

其中，控制器各参数可以包括：句子对匹配模型是否需要注意力机制、注意力机制的输出是否需要与编码层的编码模块的输出相加、注意力机制的交互操作方式、注意力机制的注意力头的个数和注意力机制在编码层的位置，注意力头可以理解为，注意力机制在多个不同的子空间重复，通过不同角度表征输入文本的上下文特征，以提升效果。句子对匹配模型是否需要注意力机制对应的可选参数值可以包括：需要和不需要。注意力机制的交互操作方式对应的可选参数值可以包括：哈达玛积、点乘、拼接、相加和相减。注意力机制的输出是否需要与编码层的编码模块的输出相加对应的可选参数值可以包括：需要和不需要。注意力机制的注意力头的个数对应的可选参数值可以包括：1个、2个、4个、8个和16个。注意力机制在编码层的位置对应的可选参数值可以包括：第一层、第二层和第三层。

随机从各参数的可选参数值中选定控制器各参数的参数值，使控制器根据各参数的参数值，生成待确定注意力机制，如：句子对匹配模型是否需要注意力机制的参数，对应参数值为需要；注意力机制的交互操作方式的参数，对应的参数值为点乘；注意力机制的输出是否需要与编码层的编码模块的输出相加的参数，对应的参数值为需要；注意力机制的注意力头的个数的参数，对应的参数值为：1个；注意力机制在编码层的位置的参数，对应的参数值为：第二层；则控制器根据各参数的参数值，生成的待确定注意力机制是：结合到编码层第二层，交互操作方式为点乘，注意力头的个数为1个，输出需要与编码层的编码模块的输出相加的注意力机制。

需要说明的是，句子对匹配模型是否需要注意力机制的参数，对应的参数值在迭代或初始化时，可能会调整为不需要的情况，当句子对匹配模型是否需要注意力机制的参数，对应的参数值为不需要时，注意力机制的交互操作方式的参数对应的参数值、注意力机制的输出是否需要与编码层的编码模块的输出相加的参数对应的参数值、注意力机制的注意力头的个数的参数对应的参数值和注意力机制在编码层的位置的参数对应的参数值为空，即无需生成待确定注意力机制为空，则句子对匹配模型无需结合注意力机制，将样本数据集输入没有结合注意力机制的句子对匹配模型进行训练并验证，获得该句子对匹配模型的匹配准确度，根据匹配准确度和当前迭代次数，确定是否满足预设终止条件，当不满足预设终止条件时，对控制器各参数进行调整，生成新的待确定注意力机制，返回将待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度的步骤，直至满足预设迭代条件，获得句子对匹配模型的最终注意力机制。有可能有的样本数据集训练出来的句子对匹配模型，无需结合注意力机制，或者不结合注意力机制训练出来的句子对匹配模型，匹配准确度更高。

在一个实施例中，基于控制器各参数的可选参数值，初始化各参数的参数值，使控制器根据各参数的参数值，生成待确定注意力机制的步骤之前，还包括：根据注意力机制生成的预设隐含状态，将预设隐含状态输入到控制器的分类器中，形成控制器各参数；并将预设隐含状态对应的可选项作为可选参数值，与控制器各参数对应关联。

其中，预设隐含状态是为句子对匹配模型的编码层构建注意力机制时，需要选定的状态。分类器是控制器中用于决定控制器各参数的参数值的神经网络。

预设隐含状态包括：句子对匹配模型是否需要注意力机制、注意力机制的交互操作方式、注意力机制的注意力头的个数、注意力机制的输出是否需要与句子对匹配模型的编码层的编码模块的输出进行结合、注意力机制在句子对匹配模型的编码层的位置和注意力机制在句子对匹配模型的编码层的位置中的至少一种。

句子对匹配模型是否需要注意力机制的可选项包括：需要和不需要；注意力机制的交互操作方式的可选项包括：哈达玛积、点乘、拼接、相加和相减中的至少一种；注意力机制的注意力头的个数的可选项包括：1个、2个、4个、8个和16个中的至少一种；注意力机制在句子对匹配模型的编码层的位置的可选项包括：第一层、第二层和第三层中的至少一种；注意力机制的输出是否需要与句子对匹配模型的编码层的编码模块的输出进行结合的可选项包括：需要和不需要。通过将预设隐含状态输入到控制器的分类器中，分类器自动选定构建句子对匹配模型的注意力机制的算法逻辑，无需算法工程师耗费注意力机制建模时间，提高了句子间注意力机制构建效率，节省了成本。

在一个实施例中，将待确定注意力机制结合到句子对匹配模型中，并输入样本数据集进行训练并验证，获得句子对匹配模型的匹配准确度，包括：根据各参数中的注意力机制在编码层的位置，以及注意力机制的输出是否需要与编码层的编码模块的输出相加，将待确定注意力机制与句子对匹配模型中编码层的编码模块进行结合，获得结合后的句子对匹配模型；将样本数据集输入到结合后的句子对匹配模型进行训练并验证，获得结合后的句子对匹配模型的匹配准确度。

其中，编码模块是句子对匹配模型中编码层进行自身编码的算子（如text-CNN等经典网络）。当句子对匹配模型需要结合注意力机制时，是将注意力机制与句子对匹配模型中编码层中进行自身编码的算子进行结合，结合的方式根据各参数中的注意力机制在编码层的位置确定，如：假设注意力机制在编码层的位置的参数，对应的参数值为：第二层，注意力机制的输出是否需要与编码层的编码模块的输出相加的参数，对应的参数值为需要，将待确定注意力机制与句子对匹配模型中编码层的编码模块进行结合，结合到编码层后，形成的编码层如图3所示，编码层网络的第一层是编码模块0和编码模块1，编码层网络的第二层是编码模块4和注意力机制，编码层网络的第三层是编码模块2和编码模块3，注意力机制结合到编码层第二层，注意力机制的输出需要与编码层的编码模块4的输出相加后输入到下一层，注意力机制的输出与编码层的编码模块4的输出相加的方式是相加。

样本数据集包括训练样本数据和验证样本数据，通过训练样本数据对输入到结合后的句子对匹配模型进行训练，获得训练后的句子对匹配模型，将验证样本数据输入训练后的句子对匹配模型进行验证，确定结合后的句子对匹配模型的匹配准确度。根据匹配准确度可以得出结合后的句子对匹配模型准确度和可靠性是否达到应用要求，是否可以精准稳健的进行句子对匹配，如将句子对匹配模型应用到问答***，是否可以准确的分析出接收的语音数据或文字数据的语义，进一步回复对应的内容。

在一个实施例中，当不满足预设终止条件时，对控制器各参数进行调整，生成新的待确定注意力机制，包括：当不满足预设终止条件时，根据策略梯度学习算法对控制器各参数进行调整，生成新的待确定注意力机制。

其中，策略梯度学习算法是先找到一个评价指标（比如期望回报），然后使用随机梯度上升法来更新参数，从而不断的最大化评价指标的算法，如REINFORCE算法。通过REINFORCE算法对控制器各参数进行调整，生成新的待确定注意力机制，可以更准确的调整控制器各参数的参数值，更快的构建出句子对匹配模型需要的注意力机制，提高了句子间注意力机制构建效率。

在一个实施例中，根据匹配准确度和当前迭代次数，确定是否满足预设终止条件，包括以下任意一种以上：当匹配准确度达到预设阈值时，确定满足预设终止条件；当前迭代次数达到预设次数时，确定满足预设终止条件；当匹配准确度持续预设迭代次数未发生变化时，确定满足预设终止条件。

其中，预设阈值是句子对匹配模型的匹配准确度达到要求的匹配准确度阈值，可根据实际情况设定。预设次数是循环调整控制器各参数的次数，如5次、10次和20次等，如：预设次数为10次，在第10次调整控制器各参数，生成的待确定注意力机制，即为句子对匹配模型的最终注意力机制。当匹配准确度持续预设迭代次数未发生变化时，是指连续调整控制器各参数，连续调整次数达到预设迭代次数，得到的结合后的句子对匹配模型的匹配准确度没有发生变化，则当前生成的待确定注意力机制，即为句子对匹配模型的最终注意力机制。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种句子对匹配装置，包括：参数值确定模块310、匹配准确度获得模块320、判断模块330、参数调整模块340、注意力机制获得模块350和匹配度分析模块360，其中：

参数值确定模块310，用于基于控制器各参数的可选参数值，初始化各参数的参数值，使控制器根据各参数的参数值，生成待确定注意力机制。

匹配准确度获得模块320，用于将待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度。

判断模块330，用于根据匹配准确度和当前迭代次数，确定是否满足预设终止条件。

参数调整模块340，用于当不满足预设终止条件时，对控制器的参数进行调整，生成新的待确定注意力机制。

注意力机制获得模块350，用于返回将待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度的步骤，直至满足预设迭代条件，获得句子对匹配模型的最终注意力机制。

匹配度分析模块360，用于将获取的待匹配句子对输入到结合了最终注意力机制的句子对匹配模型中进行匹配度分析，获得句子对匹配结果。

在一个实施例中，参数值确定模块310还用于：基于控制器各参数的可选参数值，随机从各参数的可选参数值中，选定控制器各参数的参数值，使控制器根据各参数的参数值，生成待确定注意力机制。

请参阅图5，在一个实施例中，该装置还包括：参数确定模块370，用于根据注意力机制生成的预设隐含状态，将预设隐含状态输入到控制器的分类器中，形成控制器各参数；并将预设隐含状态对应的可选项作为可选参数值，与控制器各参数对应关联。

在一个实施例中，参数确定模块370的预设隐含状态，以及预设隐含状态对应的可选项，包括以下任意一种以上：句子对匹配模型是否需要注意力机制，其中，可选项包括需要和不需要；注意力机制的交互操作方式，其中，可选项包括哈达玛积、点乘、拼接、相加和相减中的至少一种；注意力机制的注意力头的个数，其中，可选项包括1个、2个、4个、8个和16个中的至少一种；注意力机制在编码层的位置，其中可选项包括第一层、第二层和第三层中的至少一种；注意力机制的输出是否需要与编码层的编码模块的输出相加，其中，可选项包括需要和不需要。

在一个实施例中，匹配准确度获得模块320还用于：根据各参数中的注意力机制在编码层的位置，以及注意力机制的输出是否需要与编码层的编码模块的输出相加，将待确定注意力机制与句子对匹配模型中编码层的编码模块进行结合，获得结合后的句子对匹配模型；将样本数据集输入到结合后的句子对匹配模型进行训练并验证，获得结合后的句子对匹配模型的匹配准确度。

在一个实施例中，参数调整模块340还用于：当不满足预设终止条件时，根据策略梯度学习算法对控制器各参数进行调整，生成新的待确定注意力机制。

在一个实施例中，判断模块330还用于：当匹配准确度达到预设阈值时，确定满足预设终止条件；当前迭代次数达到预设次数时，确定满足预设终止条件；当匹配准确度持续预设迭代次数未发生变化时，确定满足预设终止条件。

关于句子对匹配装置的具体限定可以参见上文中对于句子对匹配方法的限定，在此不再赘述。上述句子对匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，该计算机设备的存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

基于控制器各参数的可选参数值，初始化各参数的参数值，使控制器根据各参数的参数值，生成待确定注意力机制；将待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度；根据匹配准确度和当前迭代次数，确定是否满足预设终止条件；当不满足预设终止条件时，对控制器的参数进行调整，生成新的待确定注意力机制；返回将待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度的步骤，直至满足预设迭代条件，获得句子对匹配模型的最终注意力机制；将获取的待匹配句子对输入到结合了最终注意力机制的句子对匹配模型中进行匹配度分析，获得句子对匹配结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于控制器各参数的可选参数值，随机从各参数的可选参数值中，选定控制器各参数的参数值，使控制器根据各参数的参数值，生成待确定注意力机制。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据注意力机制生成的预设隐含状态，将预设隐含状态输入到控制器的分类器中，形成控制器各参数；并将预设隐含状态对应的可选项作为可选参数值，与控制器各参数对应关联。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：预设隐含状态，以及预设隐含状态对应的可选项，包括以下任意一种以上：句子对匹配模型是否需要注意力机制，其中，可选项包括需要和不需要；注意力机制的交互操作方式，其中，可选项包括哈达玛积、点乘、拼接、相加和相减中的至少一种；注意力机制的注意力头的个数，其中，可选项包括1个、2个、4个、8个和16个中的至少一种；注意力机制在编码层的位置，其中可选项包括第一层、第二层和第三层中的至少一种；注意力机制的输出是否需要与编码层的编码模块的输出相加，其中，可选项包括需要和不需要。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据各参数中的注意力机制在编码层的位置，以及注意力机制的输出是否需要与编码层的编码模块的输出相加，将待确定注意力机制与句子对匹配模型中编码层的编码模块进行结合，获得结合后的句子对匹配模型；将样本数据集输入到结合后的句子对匹配模型进行训练并验证，获得结合后的句子对匹配模型的匹配准确度。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当不满足预设终止条件时，根据策略梯度学习算法对控制器各参数进行调整，生成新的待确定注意力机制。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当匹配准确度达到预设阈值时，确定满足预设终止条件；当前迭代次数达到预设次数时，确定满足预设终止条件；当匹配准确度持续预设迭代次数未发生变化时，确定满足预设终止条件。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于控制器各参数的可选参数值，随机从各参数的可选参数值中，选定控制器各参数的参数值，使控制器根据各参数的参数值，生成待确定注意力机制。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据注意力机制生成的预设隐含状态，将预设隐含状态输入到控制器的分类器中，形成控制器各参数；并将预设隐含状态对应的可选项作为可选参数值，与控制器各参数对应关联。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：预设隐含状态，以及预设隐含状态对应的可选项，包括以下任意一种以上：句子对匹配模型是否需要注意力机制，其中，可选项包括需要和不需要；注意力机制的交互操作方式，其中，可选项包括哈达玛积、点乘、拼接、相加和相减中的至少一种；注意力机制的注意力头的个数，其中，可选项包括1个、2个、4个、8个和16个中的至少一种；注意力机制在编码层的位置，其中可选项包括第一层、第二层和第三层中的至少一种；注意力机制的输出是否需要与编码层的编码模块的输出相加，其中，可选项包括需要和不需要。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据各参数中的所述注意力机制在编码层的位置，以及注意力机制的输出是否需要与编码层的编码模块的输出相加，将待确定注意力机制与句子对匹配模型中编码层的编码模块进行结合，获得结合后的句子对匹配模型；将样本数据集输入到结合后的句子对匹配模型进行训练并验证，获得结合后的句子对匹配模型的匹配准确度。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当不满足预设终止条件时，根据策略梯度学习算法对控制器各参数进行调整，生成新的待确定注意力机制。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当匹配准确度达到预设阈值时，确定满足预设终止条件；当前迭代次数达到预设次数时，确定满足预设终止条件；当匹配准确度持续预设迭代次数未发生变化时，确定满足预设终止条件。

Claims

一种句子对匹配方法，所述方法包括：

基于控制器各参数的可选参数值，初始化各所述参数的参数值，使所述控制器根据各所述参数的参数值，生成待确定注意力机制；

将所述待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度；

根据所述匹配准确度和当前迭代次数，确定是否满足预设终止条件；

当不满足预设终止条件时，对所述控制器各所述参数进行调整，生成新的待确定注意力机制；

返回所述将所述待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度的步骤，直至满足预设迭代条件，获得所述句子对匹配模型的最终注意力机制；

将获取的待匹配句子对输入到结合了所述最终注意力机制的所述句子对匹配模型中进行匹配度分析，获得句子对匹配结果。
根据权利要求1所述的方法，其中，所述基于控制器各参数的可选参数值，初始化各所述参数的参数值，使所述控制器根据各所述参数的参数值，生成待确定注意力机制，包括：

基于控制器各参数的可选参数值，随机从各所述参数的可选参数值中，选定所述控制器各所述参数的参数值，使所述控制器根据各所述参数的参数值，生成待确定注意力机制。
根据权利要求2所述的方法，其中，所述基于控制器各参数的可选参数值，初始化各所述参数的参数值，使所述控制器根据各所述参数的参数值，生成待确定注意力机制的步骤之前，还包括：

根据注意力机制生成的预设隐含状态，将所述预设隐含状态输入到所述控制器的分类器中，形成所述控制器各参数；

并将所述预设隐含状态对应的可选项作为可选参数值，与所述控制器各参数对应关联。
根据权利要求3所述的方法，其中，所述预设隐含状态，以及所述预设隐含状态对应的可选项，包括以下任意一种以上：

所述句子对匹配模型是否需要注意力机制，其中，可选项包括需要和不需要；

所述注意力机制的交互操作方式，其中，可选项包括哈达玛积、点乘、拼接、相加和相减中的至少一种；

所述注意力机制的注意力头的个数，其中，可选项包括1个、2个、4个、8个和16个中的至少一种；

所述注意力机制在所述编码层的位置，其中可选项包括第一层、第二层和第三层中的至少一种；

所述注意力机制的输出是否需要与所述编码层的编码模块的输出相加，其中，可选项包括需要和不需要。
根据权利要求4所述的方法，其中，所述将所述待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得所述句子对匹配模型的匹配准确度，包括：

根据各所述参数中的所述注意力机制在所述编码层的位置，以及所述注意力机制的输出是否需要与所述编码层的编码模块的输出相加，将所述待确定注意力机制与句子对匹配模型中编码层的编码模块进行结合，获得结合后的句子对匹配模型；

将样本数据集输入到所述结合后的句子对匹配模型进行训练并验证，获得所述结合后的句子对匹配模型的匹配准确度。
根据权利要求1所述的方法，其中，所述当不满足预设终止条件时，对所述控制器各所述参数进行调整，生成新的待确定注意力机制，包括：

当不满足预设终止条件时，根据策略梯度学习算法对所述控制器各所述参数进行调整，生成新的待确定注意力机制。
根据权利要求1所述的方法，其中，所述根据所述匹配准确度和当前迭代次数，确定是否满足预设终止条件，包括以下任意一种以上：

当所述匹配准确度达到预设阈值时，确定满足预设终止条件；

当前迭代次数达到预设次数时，确定满足预设终止条件；

当所述匹配准确度持续预设迭代次数未发生变化时，确定满足预设终止条件。
一种句子对匹配装置，所述装置包括：

参数值确定模块，用于基于控制器各参数的可选参数值，初始化各所述参数的参数值，使所述控制器根据各所述参数的参数值，生成待确定注意力机制；

匹配准确度获得模块，用于将所述待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度；

判断模块，用于根据所述匹配准确度和当前迭代次数，确定是否满足预设终止条件；

参数调整模块，用于当不满足预设终止条件时，对所述控制器的参数进行调整，生成新的待确定注意力机制；

注意力机制获得模块，用于返回所述将所述待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度的步骤，直至满足预设迭代条件，获得所述句子对匹配模型的最终注意力机制；

匹配度分析模块，用于将获取的待匹配句子对输入到结合了所述最终注意力机制的所述句子对匹配模型中进行匹配度分析，获得句子对匹配结果。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种句子对匹配方法的步骤：

基于控制器各参数的可选参数值，初始化各所述参数的参数值，使所述控制器根据各所述参数的参数值，生成待确定注意力机制；

将所述待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度；

根据所述匹配准确度和当前迭代次数，确定是否满足预设终止条件；

当不满足预设终止条件时，对所述控制器各所述参数进行调整，生成新的待确定注意力机制；

返回所述将所述待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度的步骤，直至满足预设迭代条件，获得所述句子对匹配模型的最终注意力机制；

将获取的待匹配句子对输入到结合了所述最终注意力机制的所述句子对匹配模型中进行匹配度分析，获得句子对匹配结果。
根据权利要求9所述的计算机设备，其中，所述基于控制器各参数的可选参数值，初始化各所述参数的参数值，使所述控制器根据各所述参数的参数值，生成待确定注意力机制，包括：

基于控制器各参数的可选参数值，随机从各所述参数的可选参数值中，选定所述控制器各所述参数的参数值，使所述控制器根据各所述参数的参数值，生成待确定注意力机制。
根据权利要求10所述的计算机设备，其中，所述基于控制器各参数的可选参数值，初始化各所述参数的参数值，使所述控制器根据各所述参数的参数值，生成待确定注意力机制的步骤之前，还包括：

根据注意力机制生成的预设隐含状态，将所述预设隐含状态输入到所述控制器的分类器中，形成所述控制器各参数；

并将所述预设隐含状态对应的可选项作为可选参数值，与所述控制器各参数对应关联。
根据权利要求11所述的计算机设备，其中，所述预设隐含状态，以及所述预设隐含状态对应的可选项，包括以下任意一种以上：

所述句子对匹配模型是否需要注意力机制，其中，可选项包括需要和不需要；

所述注意力机制的交互操作方式，其中，可选项包括哈达玛积、点乘、拼接、相加和相减中的至少一种；

所述注意力机制的注意力头的个数，其中，可选项包括1个、2个、4个、8个和16个中的至少一种；

所述注意力机制在所述编码层的位置，其中可选项包括第一层、第二层和第三层中的至少一种；

所述注意力机制的输出是否需要与所述编码层的编码模块的输出相加，其中，可选项包括需要和不需要。
根据权利要求12所述的计算机设备，其中，所述将所述待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得所述句子对匹配模型的匹配准确度，包括：

根据各所述参数中的所述注意力机制在所述编码层的位置，以及所述注意力机制的输出是否需要与所述编码层的编码模块的输出相加，将所述待确定注意力机制与句子对匹配模型中编码层的编码模块进行结合，获得结合后的句子对匹配模型；

将样本数据集输入到所述结合后的句子对匹配模型进行训练并验证，获得所述结合后的句子对匹配模型的匹配准确度。
根据权利要求9所述的计算机设备，其中，所述当不满足预设终止条件时，对所述控制器各所述参数进行调整，生成新的待确定注意力机制，包括：

当不满足预设终止条件时，根据策略梯度学习算法对所述控制器各所述参数进行调整，生成新的待确定注意力机制。
根据权利要求9所述的计算机设备，其中，所述根据所述匹配准确度和当前迭代次数，确定是否满足预设终止条件，包括以下任意一种以上：

当所述匹配准确度达到预设阈值时，确定满足预设终止条件；

当前迭代次数达到预设次数时，确定满足预设终止条件；

当所述匹配准确度持续预设迭代次数未发生变化时，确定满足预设终止条件。
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种句子对匹配方法的步骤：

基于控制器各参数的可选参数值，初始化各所述参数的参数值，使所述控制器根据各所述参数的参数值，生成待确定注意力机制；

将所述待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度；

根据所述匹配准确度和当前迭代次数，确定是否满足预设终止条件；

当不满足预设终止条件时，对所述控制器各所述参数进行调整，生成新的待确定注意力机制；

返回所述将所述待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得结合后的句子对匹配模型的匹配准确度的步骤，直至满足预设迭代条件，获得所述句子对匹配模型的最终注意力机制；

将获取的待匹配句子对输入到结合了所述最终注意力机制的所述句子对匹配模型中进行匹配度分析，获得句子对匹配结果。
根据权利要求16所述的计算机可读存储介质，其中，所述基于控制器各参数的可选参数值，初始化各所述参数的参数值，使所述控制器根据各所述参数的参数值，生成待确定注意力机制，包括：

基于控制器各参数的可选参数值，随机从各所述参数的可选参数值中，选定所述控制器各所述参数的参数值，使所述控制器根据各所述参数的参数值，生成待确定注意力机制。
根据权利要求17所述的计算机可读存储介质，其中，所述基于控制器各参数的可选参数值，初始化各所述参数的参数值，使所述控制器根据各所述参数的参数值，生成待确定注意力机制的步骤之前，还包括：

根据注意力机制生成的预设隐含状态，将所述预设隐含状态输入到所述控制器的分类器中，形成所述控制器各参数；

并将所述预设隐含状态对应的可选项作为可选参数值，与所述控制器各参数对应关联。
根据权利要求18所述的计算机可读存储介质，其中，所述预设隐含状态，以及所述预设隐含状态对应的可选项，包括以下任意一种以上：

所述句子对匹配模型是否需要注意力机制，其中，可选项包括需要和不需要；

所述注意力机制的交互操作方式，其中，可选项包括哈达玛积、点乘、拼接、相加和相减中的至少一种；

所述注意力机制的注意力头的个数，其中，可选项包括1个、2个、4个、8个和16个中的至少一种；

所述注意力机制在所述编码层的位置，其中可选项包括第一层、第二层和第三层中的至少一种；

所述注意力机制的输出是否需要与所述编码层的编码模块的输出相加，其中，可选项包括需要和不需要。
根据权利要求19所述的计算机可读存储介质，其中，所述将所述待确定注意力机制结合到句子对匹配模型的编码层中，并输入样本数据集进行训练并验证，获得所述句子对匹配模型的匹配准确度，包括：

根据各所述参数中的所述注意力机制在所述编码层的位置，以及所述注意力机制的输出是否需要与所述编码层的编码模块的输出相加，将所述待确定注意力机制与句子对匹配模型中编码层的编码模块进行结合，获得结合后的句子对匹配模型；

将样本数据集输入到所述结合后的句子对匹配模型进行训练并验证，获得所述结合后的句子对匹配模型的匹配准确度。