CN114492451B

CN114492451B - 文本匹配方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN114492451B
Application number: CN202111580884.9A
Authority: CN
Inventors: 吕乐宾; 蒋宁; 王洪斌; 吴海英; 权佳成
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2023-10-24
Anticipated expiration: 2041-12-22
Also published as: CN114492451A

Abstract

本申请公开了文本匹配方法、装置、电子设备及计算机可读存储介质。该方法包括：将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出第一文本和第二文本的匹配结果；其中，文本匹配模型包括第一交互层、分布层和第二交互层；第一交互层，用于将输入的第一文本和第二文本进行交叉注意力学习，输出第一文本向量和第二文本向量；分布层，用于分别对输入的第一文本向量和第二文本向量进行表示学习，输出第三文本向量和第四文本向量；第二交互层，用于将输入的第三文本向量和第四文本向量进行拼接得到第五文本向量，以及对第五文本向量计算文本相似度，输出匹配结果。通过上述方式，能够提高文本匹配的准确性。

Description

文本匹配方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及文本处理技术领域，特别涉及文本匹配方法、装置、电子设备及计算机可读存储介质。

背景技术

文本匹配任务是自然语言处理(Natural Language Processing，NLP)中重要的研究方向，不论是在信息检索(Information Retrieval，IR)、问题回答(Question Answer，QA)还是复述识别(Paraphrase Recognition，PR)等任务中都扮演着重要的角色。传统的文本匹配方法依赖于预定义的模板和人工提取的规则。

随着深度学习的发展，深度神经网络已经普遍应用于自然语言处理任务中，以降低人工提取特征所耗费的成本和时间。文本匹配任务旨在给定两段文本Q和D，通过提取文本中存在的语义信息和相似度特征来给出两段文本的相似度值，由最终的相似度值可以得知两段文本的内容是否属于相似的描述。

目前文本匹配存在准确性不足的问题。

发明内容

为了解决上述问题，本申请提供文本匹配方法、装置、电子设备及计算机可读存储介质，能够提高文本匹配的准确性。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种文本匹配方法，该方法包括：将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出第一文本和第二文本的匹配结果；其中，文本匹配模型包括第一交互层、分布层和第二交互层；第一交互层，用于将输入的第一文本和第二文本进行交叉注意力学习，输出第一文本向量和第二文本向量；分布层，用于分别对输入的第一文本向量和第二文本向量进行表示学习，输出第三文本向量和第四文本向量；第二交互层，用于将输入的第三文本向量和第四文本向量进行拼接得到第五文本向量，以及对第五文本向量计算文本相似度，输出匹配结果。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种文本匹配装置，该文本匹配装置包括：文本匹配单元，用于将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出第一文本和第二文本的匹配结果；其中，文本匹配模型包括第一交互层、分布层和第二交互层；第一交互层，用于将输入的第一文本和第二文本进行交叉注意力学习，输出第一文本向量和第二文本向量；分布层，用于分别对输入的第一文本向量和第二文本向量进行表示学习，输出第三文本向量和第四文本向量；第二交互层，用于将输入的第三文本向量和第四文本向量进行拼接得到第五文本向量，以及对第五文本向量计算文本相似度，输出匹配结果。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，该电子设备包括处理器以及与处理器耦接的存储器，存储器中存储有计算机程序，处理器用于执行计算机程序以实现如上述技术方案提供的方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，计算机程序在被处理器执行时，实现如上述技术方案提供的方法。

在本申请中，通过对第一文本和第二文本进行交叉注意力学习，输出第一文本向量和第二文本向量；以及分别对输入的第一文本向量和第二文本向量进行表示学习，输出第三文本向量和第四文本向量；以及将输入的第三文本向量和第四文本向量进行拼接得到第五文本向量，以及对第五文本向量计算文本相似度，输出匹配结果的方式进行文本匹配，匹配过程中既能通过交叉注意力学习关注到另一个文本的语义信息，又能通过表示学习关注到自身文本，既关注了文本的局部信息也关注了文本之间的全局信息，能够提高文本匹配的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的文本匹配方法第一实施例的流程示意图；

图2是本申请提供的文本匹配方法第二实施例的流程示意图；

图3是本申请提供的第一交互层一实施例的结构示意图；

图4是本申请提供的分布层一实施例的结构示意图；

图5是本申请提供的第二交互层一实施例的结构示意图；

图6是本申请提供的文本匹配模型一实施例的结构示意图；

图7是本申请提供的粒度网络一实施例的结构示意图；

图8是本申请提供的本申请技术方案与相关技术的一对比示意图；

图9是本申请提供的本申请技术方案与相关技术的另一对比示意图；

图10是本申请提供的本申请技术方案与相关技术的另一对比示意图；

图11是本申请提供的本申请技术方案与相关技术的另一对比示意图；

图12是本申请提供的文本匹配方法第三实施例的流程示意图；

图13是本申请提供的文本匹配装置一实施例的结构示意图；

图14是本申请提供的电子设备一实施例的结构示意图；

图15是本申请提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的相关术语和概念进行介绍。

Text Matching(文本匹配)：一种深度学习任务，可以简单理解为计算两个句子之间的相似度，主要应用于信息检索、智能问答等。

卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。

RNN(recursive neural network，RNN)是具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络。

Attention(注意力机制)：一种机器模拟人类阅读、听说时较多关注重点信息，适当忽略不重要信息的方法。可对输入文本序列中不同时间步编码的信息分配不同的加权值，表征模型不同的关注程度。

表示注意力(Represented-attention)：自注意力的一种，计算文本句子中的每个词的表示向量重要程度；

Cross-attention(交叉注意力)：计算句子A中的每个词对于整个句子B的重要程度；相反，也可以计算句子B中的每个词对于整个句子A的重要程度。

LSTM(Long Short-Term Memory)：长短时记忆网络，是一种用于处理序列数据的神经网络。相比一般的神经网络来说，他能够处理序列变化的数据。

Bi-LSTM(Bi-directional Long Short-Term Memory，双向长短时记忆网络)：改进于LSTM，从两个方向同时处理序列数据的神经网络。

Glove：自然语言处理中一种词嵌入方法。

参阅图1，图1是本申请提供的文本匹配方法第一实施例的流程示意图。该方法包括：

步骤11：获取待匹配的第一文本和第二文本。

在一些实施例中，第一文本和第二文本可以是问答对的形式，其中，第一文本可以是问题，第二文本可以是答案。或者，第一文本可以是答案，第二文本可以是问题。

在一些实施例中，第一文本和第二文本可以是信息检索的形式，其中，第一文本是检索文本，第二文本是待匹配文本。

在一些实施例中，第一文本和第二文本可以是复述识别的形式，其中，第一文本是第一种表述文本，第二文本是第二种表述文本。

步骤12：将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出第一文本和第二文本的匹配结果；其中，文本匹配模型包括第一交互层、分布层和第二交互层；第一交互层，用于将输入的第一文本和第二文本进行交叉注意力学习，输出第一文本向量和第二文本向量；分布层，用于分别对输入的第一文本向量和第二文本向量进行表示学习，输出第三文本向量和第四文本向量；第二交互层，用于将输入的第三文本向量和第四文本向量进行拼接得到第五文本向量，以及对第五文本向量计算文本相似度，输出匹配结果。

在一些实施例中，文本匹配模型包括第一交互层、分布层和第二交互层。

其中，第一交互层用于将输入的第一文本和第二文本进行交叉注意力学习，输出第一文本向量和第二文本向量。

在一些实施例中，在第一交互层中，可以对第一文本进行单个词向量、词语向量、短语向量的提取，形成第一词组向量集合。对第二文本进行单个词向量、词语向量、短语向量的提取，形成第二词组向量集合。将第一词组向量集合和第二词组向量集合进行相似性比较，即进行交叉注意力学习，得到第一文本向量和第二文本向量，并输出。

如，第一词组向量集合和第二词组向量集合之间的近义词、以及近义词在原文本向量中的排序、以及该近义词在文本向量中的属性，如主语、谓语、宾语、定语、状语或补语，可以通过这些对应的联系，来确定第一文本和第二文本之间的交叉注意力，进而得到第一文本向量和第二文本向量。

分布层用于分别对输入的第一文本向量和第二文本向量进行表示学习，输出第三文本向量和第四文本向量。

通过对输入的第一文本向量和第二文本向量进行表示学习，使第一文本向量和第二文本向量具有相应的表示注意力，进而得到对应的第三文本向量和第四文本向量，其中，表示注意力表示文本向量中的词向量对文本向量的贡献度。如，该词为主语、谓语或宾语，则贡献度偏高，该词为拟声词，则贡献度偏低。

因表示注意力表示文本中的词对文本的贡献度，则第一文本向量经过表示学习得到的第三文本向量，其中的每一词均有属于自己的对文本的贡献度。

同理，第二文本向量经过表示学习得到的第四文本向量，其中的每一词均有属于自己的对文本的贡献度。

第二交互层用于将输入的第三文本向量和第四文本向量进行拼接得到第五文本向量，以及对第五文本向量计算文本相似度，输出匹配结果。

因第五文本向量是由第一文本和第二文本转换得到，则由第五文本向量计算出的文本相似度可以表示第一文本和第二文本之间的匹配结果。

在本实施例中，通过对第一文本和第二文本进行交叉注意力学习，输出第一文本向量和第二文本向量；以及分别对输入的第一文本向量和第二文本向量进行表示学习，输出第三文本向量和第四文本向量；以及将输入的第三文本向量和第四文本向量进行拼接得到第五文本向量，以及对第五文本向量计算文本相似度，输出匹配结果的方式进行文本匹配，匹配过程中既能通过交叉注意力学习关注到另一个文本的语义信息，又能通过表示学习关注到自身文本，既关注了文本的局部信息也关注了文本之间的全局信息，能够提高文本匹配的准确性。

参阅图2，图2是本申请提供的文本匹配方法第二实施例的流程示意图。该方法包括：

步骤21：获取待匹配的第一文本和第二文本。

步骤22：将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出第一文本和第二文本的匹配结果。

参阅图3，第一交互层包括第一嵌入层、第二嵌入层、相似矩阵层和处理层。

其中，第一嵌入层用于对输入的第一文本进行词嵌入处理，输出第一处理文本。

在一些实施例中，可以将第一文本进行词嵌入处理，即向量转换，得到相应的第一处理文本。如，采用连续词袋模型，将第一文本输入至连续词袋模型，以使连续词袋模型输出对应的向量。还可以采用Skip-Gram实现向量转换。

其中，第二嵌入层用于对输入的第二文本进行词嵌入处理，输出第二处理文本。

在一些实施例中，可以将第二文本进行词嵌入处理，即向量转换，得到相应的第二处理文本。如，采用连续词袋模型，将第二文本输入至连续词袋模型，以使连续词袋模型输出对应的向量。还可以采用Skip-Gram实现向量转换。

其中，相似矩阵层用于将输入的第一处理文本和第二处理文本进行相似度处理，输出第一权重向量和第二权重向量。

其中，相似矩阵层具体用于确定第一处理文本和第二处理文本的相似度矩阵；对相似度矩阵进行行归一化处理，得到第一权重向量，以及对相似度矩阵进行列归一化处理，得到第二权重向量。

因相似度矩阵为二维矩阵，则为行列分布，则对该相似度矩阵的每一行进行归一化处理，得到每一行对应的权重向量，然后将每一行对应的权重向量进行求和，得到第一权重向量。以及对该相似度矩阵的每一列进行归一化处理，得到每一列对应的权重向量，然后将每一列对应的权重向量进行求和，得到第二权重向量。

其中，处理层用于将输入的第二权重向量与第一处理文本融合，输出第一文本向量，以及将第一权重向量与第二处理文本融合，输出第二文本向量。

参阅图4，分布层包括第一粒度网络、第二粒度网络、第一记忆网络、第二记忆网络、第一注意力层和第二注意力层。

其中，第一粒度网络用于对输入的第一文本向量进行多粒度提取，得到多个不同的第一粒度信息，并将第一粒度信息进行拼接，得到第一拼接向量。

其中，第一粒度网络具体用于利用多组尺寸不同的卷积窗口对输入的第一文本向量进行特征提取，得到多个不同的第一粒度信息，并将第一粒度信息进行拼接，得到第一拼接向量。

因粒度信息对应的尺度不同，则可以获取到更多的特征信息。

其中，第一记忆网络用于对输入的第一拼接向量进行特征提取，输出提取的第一特征向量。

其中，第一注意力层用于对输入的第一特征向量进行表示学习，输出第三文本向量。

其中，第二粒度网络用于对输入的第二文本向量进行多粒度提取，得到多个不同的第二粒度信息，并将第二粒度信息进行拼接，得到第二拼接向量。

其中，第二粒度网络具体用于利用多组尺寸不同的卷积窗口对输入的第二文本向量进行特征提取，得到多个不同的第二粒度信息，并将第二粒度信息进行拼接，得到第二拼接向量。

其中，第二记忆网络用于对输入的第二拼接向量进行特征提取，输出提取的第二特征向量。

其中，第二注意力层用于对输入的第二特征向量进行表示学习，输出第四文本向量。

参阅图5，第二交互层包括拼接层和全连接层。

其中，拼接层用于将输入的第三文本向量和第四文本向量进行拼接得到第五文本向量。

其中，全连接层用于对输入的第五文本向量进行文本相似度计算，输出匹配结果。

在一应用场景中，参阅图6和图7进行说明分别获取两个待匹配文本，如第一文本和第二文本。然后在第一嵌入层对第一文本进行词嵌入操作，在第二嵌入层对第二文本进行词嵌入操作。

如，在第一嵌入层和第二嵌入层设置一个嵌入查找函数，该函数利用预先训练好的Glove词向量得到查找矩阵，分别将第一文本和第二文本的每个单词映射到高维向量空间，得到对应的词嵌入文本。

然后在相似矩阵层计算两个词嵌入文本每个词与词之间的相似度，得到相似性矩阵，然后将相似矩阵按列进行归一化处理，以及所有列加和，得到第二权重向量。

以及将相似矩阵分别按行进行归一化处理，以及所有行加和，得到第一权重向量。

然后在第一处理层将第二权重向量与第一嵌入层输出的词嵌入文本相乘，实现对第一文本对应的词嵌入文本的加权处理，得到第一文本向量。

以及在第二处理层将第一权重向量与第二嵌入层输出的词嵌入文本相乘，实现对第二文本对应的词嵌入文本的加权处理，得到第二文本向量。

具体地，利用第一文本和第二文本进行词嵌入后的单词向量计算第一文本和第二文本中每对单词之间的相似性，得到相似度矩阵，对相似度矩阵分别按行和列进行归一化加和处理，分别得到第一文本和第二文本的注意力权重，利用注意力权重对原词嵌入文本进行加权处理从而得到新的文本，如第一文本向量和第二文本向量。加权后的第一文本向量和第二文本向量在信息提取和文本表示的过程当中更容易抓住一段文本的重点部分。

在文本匹配过程中，文本中的单词对于匹配任务的贡献度不同，为了在文本表示过程中更好地发挥重要单词的作用，需要对不同的单词赋予不同的权重信息，所以本申请引入注意力机制，分别对第一文本和第二文本加入来自另一方的注意力权重。这种交叉注意力由第一文本对第二文本的注意力(Q2D)和第二文本对第一文本的注意力(D2Q)组成，向量中的每个权重值间接表示了该文本中的每个单词对于另一段文本中全部单词的整体重要程度。

结合以下内容进行说明：

假设分别给定文本长度大小为X的第一文本Q^x＝{Q¹,…,Q^X}和文本长度大小为Y的第二文本D^y＝{D¹,…,D^Y}，令M_xy表示第一文本和第二文本交互后的相似度矩阵，注意力的表示可以计算如下：

M_xy＝Linear(Q^x·D^y+bias)；

A_Q2D＝sum_col(σ_col(M_xy)·D^y)；

A_D2Q＝sum_row(σ_row(M_xy)·Q^x)；

其中，bias表示在线性函数后面加的偏置，·表示张量之间的点积运算，σ表示softmax激活函数，sum(·)表示沿着指定的轴计算张量之和，A_D2Q表示得到的第一文本的注意力向量，即上述的第一权重向量，即表示第一文本对第二文本的注意力，A_Q2D表示得到的第二文本的注意力向量，即上述的第二权重向量，即表示第二文本对第一文本的注意力，然后将这两个注意力向量与词嵌入后的文本在对应的第一处理层或第二处理层进行结合，得到新的加权文本表示，计算如下：

Q_ATT＝Q·A_Q2D；

D_ATT＝D·A_D2Q；

Q_ATT和D_ATT分别表示加权处理后的词嵌入文本，其中，Q_ATT可以表示上述实施例的第一文本向量，D_ATT表示上述实施例的第二文本向量。

然后利用第一粒度网络对第一文本向量进行多粒度信息提取，以及利用第二粒度网络对第二文本向量进行多粒度信息提取。并将得到的多个粒度信息进行结合。

具体地，结合图7进行说明：

在图7中，利用三组不同的卷积窗口对加权后的词嵌入文本进行分组卷积，每组卷积窗口会提取到不同粒度的特征表示。如，卷积窗口n1和卷积窗口n2为一组，卷积窗口m1和卷积窗口m2为一组，卷积窗口p1和卷积窗口p2为一组。

卷积窗口n1的三元组信息为(100，1，8)、卷积窗口n2的三元组信息为(8，1，96)、卷积窗口m1的三元组信息为(100，1，8)、卷积窗口m2的三元组信息为(8，2，96)、卷积窗口p1的三元组信息为(100，1，8)以及卷积窗口p2的三元组信息为(8，3，96)。

其中，三元组信息分别表示：输入特征维度，卷积核尺寸，输出特征维度。

具体地，计算公式如下：

其中，i,j∈{1,2,3}，表示粒度网络第一层中的原文本向量经过信息提取和降维后的张量表示，即卷积窗口n1、卷积窗口p1和卷积窗口m1的输出，/>分别表示第二层中粒度信息提取和扩大维度后的结果，即卷积窗口n2、卷积窗口p2和卷积窗口m2的输出，W_multi表示粒度滑动窗口，随着窗口的滑动，逐步提取文本序列中的粒度信息，其中σ表示RELU激活函数。粒度网络的最后一步采用了ResNeXt网络中的残差连接操作，在连接层将特征提取后的信息与原始信息进行连接，计算方式如下式所示：

其中i,j∈{1,2,3}，concat(·)表示张量的拼接操作，axis表示轴参数，分别表示第一文本向量和第二文本向量中对每个粒度的文本信息进行残差连接后的表示，即对应的连接层的输出。最后粒度网络将所有的粒度信息按行进行拼接，得到第一拼接向量和第二拼接向量的表示张量Q_all，D_all，公式计算如下：

然后将第一文本向量和第二文本向量结合后的多粒度信息分别输入第一记忆网络和第二记忆网络，进行全文的语义学习，然后对每个词的粒度信息计算对全文本语义的贡献度，得到权重向量，也就是表示注意力，再将表示注意力与多粒度信息进行结合，实现对不同粒度信息的关注。

即，将第一拼接向量输入第一记忆网络，以及将第二拼接向量输入至第二记忆网络。

其中，第一记忆网络和第二记忆网络可以是Bi-LSTM(Bi-directional LongShort-Term Memory，双向长短时记忆网络)。

具体地，对拼接后的第一拼接向量和第二拼接向量分别采用Bi-LSTM网络对多个粒度的文本特征进行学习表示和维度压缩。Bi-LSTM网络能够在高层更抽象地实现对序列的特征表达，使得可以更好地抓住序列的全局信息，而不是只局限于提取单词或词组之间的相似性特征。所以Bi-LSTM网络对特征提取后的信息进行表示学习，既可以获取每个粒度内的全局信息又可以获取粒度之间的全局信息。具体地，Bi-LSTM网络的输出可以采用以下公式表示：

Q_rep＝Bi-LSTM(Q_all)；

D_rep＝Bi-LSTM(D_all)。

其中，Q_rep表示第一记忆网络的输出，对应上述的第一特征向量，D_rep表示第二记忆网络的输出，对应上述的第二特征向量。其中，因第一粒度网络和第二粒度网络提取到的词组信息对匹配任务的重要度不同，重要度低的词组信息对于语义理解来说可能会成为噪声，在Bi-LSTM网络后面加入了相应的注意力层，如第一注意力层和第二注意力层，该注意力层运用表示注意力机制，通过全连接层来计算表示信息每个时间步对于全局信息的重要程度，然后将这个重要度作为表示信息的权重值，为表示信息加入权重约束，使得在两段句子交互的时候可以更好地发挥重要度高的词组信息的作用，抑制重要度低的词组信息的作用。第一注意力层和第二注意力层中的向量权重采用以下公式表示：

其中，i∈{1,2,…X}，j∈{1,2,…Y}，X和Y分别表示第一特征向量和第二特征向量的长度，分别表示输入的两段文本的第i和j个时间步的向量表示，Wⁱ，W^j代表可学习的参数，σ(·)表示sigmoid激活函数，/>分别表示第一特征向量和第二特征向量第i、j个时间步的权重值，即向量权重。

然后利用权重值对输入的第一特征向量和第二特征向量进行加权处理，得到最终的输出Q_out，D_out。第一注意力层和第二注意力层中的输出采用以下公式表示：

Q_out＝Q_{rep_att}·Q_rep；

D_out＝D_{rep_att}·D_rep。

其中，Q_out表示第一注意力层的输出，即上述的第三文本向量，D_out表示第二注意力层的输出，即上述的第四文本向量。

然后再将两个处理后的文本向量在拼接层进行结合，得到第五文本向量，通过全连接层对输入的第五文本向量进行文本相似度计算，输出匹配结果。。

具体地，通过将表示后的第三文本向量和第四文本向量平铺并在第一维度上进行连接，输入神经网络的全连接层来计算两段文本向量的匹配得分。具体地，采用以下公式：

Z_rep＝concat(Q_out,D_out,axis＝-1)；

Score＝σ(WZ_rep+b)。

其中，Q_out，D_out分别是第一文本和第二文本加权表示后的序列，即第三文本向量和第四文本向量，concat(·)表示拼接函数，Z_rep表示拼接之后的张量，W表示可学习的参数，σ(·)表示Linear激活函数，Score是最终输出的两段文本的匹配分数。

此时的匹配分数可表示第一文本和第二文本的匹配程度。

在其他实施例中，可以按照上述方式进行文本匹配模型训练，在得到匹配分数后，根据匹配分数与实际值的偏差，通过损失函数对整个文本匹配模型进行权重更新。

如，在训练过程中，损失函数的计算如下：

Loss＝max(0,margin+y′-y)。

针对给定的两段输入序列，最终的正确预测得分y和错误预测得分y′的差值可用来表示两个预测结果的相似关系，margin是由自己给出的系数。y越高，y′越低，即y-y′的值越大，代表文本匹配模型表现的效果越好，但二者得分之差最多为margin，差距更大并不会有更多奖励。

在一应用场景中，对本申请的技术方案进行实验，结合图8-图11进行说明：

本申请的实验使用了Microsoft的WikiQA数据集、Stanford的SNLI数据集和基于tweet的semeval2016-task3数据集分别在问题回答、文本蕴涵识别、姿态检测三种文本匹配任务上进行实验对比。

WikiQA是开放域问题解答的公开可用数据集，数据集包含从Bing的查询日志中抽取的3047个问题和29258个答案，其中1473个句子被标记为对应问题的答案。根据用户的点击行为，每个问题与Wikipedia的多个答案相关联，问题和答案的总数为29258。然后，采用人工标记的正确问题的答案作为候选答案，因此将1473个句子标记为正确答案。训练集当中包括20K对句子，测试集包含6.1K对句子，验证集包括2.7K对句子，查询句平均包含6.89个词，文档句平均包含22.73个词。

Stanford的SNLI数据集是斯坦福大学发布的用于自然语言处理中文本蕴含识别任务的数据集。SNLI数据集是由人工标注的，一共包含570K个文本对，其中训练集550K，验证集10K，测试集10K，一共包含三类文本对，分别是：entailment、contradiction、neutral。SNLI数据集中查询句平均包含12.85个词，文档句包含7.41个词。

SemEval-2016 Task 3包含两个子任务，即“问题-答案相似度”和“问题-问题相似度”，实验在“问题-答案相似度”数据上进行了实验结果对比。在“问题-答案相似度”任务中，给出特定的问题，然后根据与问题的相关性对答案进行排名。在姿态检测任务中，目标是确定对给定(预先选择)目标的偏好性，目标可能不是原文本中的意见目标，所以需要模型对句子有更深的理解和推理能力。实验选用“external answer”作为此次任务的备选答案，标签分为Good、Potentially Useful、Bad三种结果，数据集查询句平均包含39.29个词，文档句包含36.85个词。

图8中展示了各个主流模型与本申请技术方案在WikiQA的问答数据集上的实验结果对比。以FMMI表示本申请技术方案。问答数据集相比于文本蕴含识别数据集更依赖于模型对文本数据多个级别上语义的理解，所以能够更好地提取文本语义的模型在该数据集上面要表现出更优的效果。本申请的FMMI在NDCG@3、NDCG@5、MAP三个指标中测试结果均优于其它模型。可见，相比于直接捕获单词之间单个粒度的相似性信息，FMMI通过对多粒度信息的提取和加权表示可以捕获更高层次上面的语义信息。

图9展示了各个主流模型与本申请的FMMI在SNLI数据集上的实验对比，图9展示了各个模型在SNLI问答数据集上的训练过程。与问答数据集相比，文本蕴涵识别任务除了依赖于模型对文本整体语义信息的提取之外还依赖于模型对文本局部特征信息的获取，所以能够更好地进行特征提取的模型虽然在WikiQA数据集上表现欠佳，但是在SNLI数据集上却表现出较好的实验效果，比如MatchPyramid、DUET、CONV_KNRM等模型。由于本申请的FMMI不仅可以捕获到高层次的文本语义信息，还可以较好地关注到局部特征信息，使得FMMI在SNLI数据集上面也表现出最优的效果。

图10展示了各个模型与FMMI模型在semeval2016-task3数据集上面的实验对比结果，图10展示了各个模型在semeval2016-task3数据集上面的训练过程。该数据集选用外部答案(即待匹配文本没有在原文本中明确提及)作为候选目标，使得模型很难通过比较两段句子单纯的特征来判断是否具有相关性，更加考验的是模型对原文本的理解和推理能力，所以基于表示的模型可能更加胜任这个任务，如ARC-II、Mv_LSTM等。本申请的FMMI在该数据集上面依然要优于其他的匹配模型，所以可以证明FMMI在姿态检测任务中较其它模型而言可以更好地确定原文本中的陈述对于给定目标的偏好性。

图11展示了本申请的FMMI去掉一个必要的处理单元后在WikiQA数据集上面的表现效果，FMMI-IA、FMMI-LSTM、FMMI-RA、FMMI-Granet分别表示初始模型在移除交互注意力单元、Bi-LSTM表示模型，表示注意力单元、粒度网络单元后的模型。从实验结果可以看出各个单元对整体模型的贡献程度。其中贡献度最大的是模型前期引用的交互注意力机制，它对原文本的每个单词进行的加权处理有效地提高了模型后期信息提取的效果和文本表示的能力；其次是用于文本表示的Bi-LSTM单元，由此可知Bi-LSTM单元在语义表示和提取过程中发挥了重要的作用；再其次是表示注意力，它对粒度提取后的信息进行加权处理，使得模型对有用的词组信息进行了关注；最后是多粒度网络，该网络通过获取更多的粒度信息在一定程度上提高了文本匹配的精度。

参阅图12，图12是本申请提供的文本匹配方法第三实施例的流程示意图。该方法包括：

步骤121：获取第一训练文本和第二训练文本。

其中第一训练文本和第二训练文本标注有相似度真实值。

步骤122：将第一训练文本和第二训练文本输入文本匹配模型，输出第一训练文本和第二训练文本的相似度输出值，相似度输出值作为匹配结果。

步骤123：基于相似度输出值和相似度真实值的偏差，确定损失函数。

步骤124：利用损失函数对文本匹配模型进行修正。

如，在训练过程中，损失函数的计算如下：

Loss＝max(0,margin+y′-y)。

参阅图13，图13是本申请提供的文本匹配装置一实施例的结构示意图。该文本匹配装置130包括文本匹配单元131。

其中，文本匹配单元131用于将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出第一文本和第二文本的匹配结果。

其中，文本匹配模型包括第一交互层、分布层和第二交互层；

第一交互层，用于将输入的第一文本和第二文本进行交叉注意力学习，输出第一文本向量和第二文本向量；

分布层，用于分别对输入的第一文本向量和第二文本向量进行表示学习，输出第三文本向量和第四文本向量；

第二交互层，用于将输入的第三文本向量和第四文本向量进行拼接得到第五文本向量，以及对第五文本向量计算文本相似度，输出匹配结果。

可以理解，文本匹配装置130还用于实现上述任一实施例的方法，具体请参阅上述任一技术方案，这里不做赘述。

参阅图14，图14是本申请提供的电子设备一实施例的结构示意图。该电子设备140包括处理器141以及与处理器141耦接的存储器142，存储器142中存储有计算机程序，处理器141用于执行计算机程序以实现以下方法：

将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出第一文本和第二文本的匹配结果；其中，文本匹配模型包括第一交互层、分布层和第二交互层；第一交互层，用于将输入的第一文本和第二文本进行交叉注意力学习，输出第一文本向量和第二文本向量；分布层，用于分别对输入的第一文本向量和第二文本向量进行表示学习，输出第三文本向量和第四文本向量；第二交互层，用于将输入的第三文本向量和第四文本向量进行拼接得到第五文本向量，以及对第五文本向量计算文本相似度，输出匹配结果。

可以理解，处理器141还用于执行计算机程序以实现上述任一实施例的方法，具体请参阅上述任一技术方案，这里不做赘述。

参阅图15，图15是本申请提供的计算机可读存储介质一实施例的结构示意图。该计算机可读存储介质150存储有计算机程序151，计算机程序151在被处理器执行时，实现以下方法：

可以理解，计算机程序151在被处理器执行时，还用于实现上述任一实施例的方法，具体请参阅上述任一技术方案，这里不做赘述。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是根据本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种文本匹配方法，其特征在于，所述方法包括：

将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出所述第一文本和所述第二文本的匹配结果；

其中，所述文本匹配模型包括第一交互层、分布层和第二交互层；

所述第一交互层，用于将输入的所述第一文本和所述第二文本进行交叉注意力学习，输出第一文本向量和第二文本向量；

所述分布层，用于分别对输入的所述第一文本向量和所述第二文本向量进行表示学习，输出第三文本向量和第四文本向量；

所述第二交互层，用于将输入的所述第三文本向量和所述第四文本向量进行拼接得到第五文本向量，以及对所述第五文本向量计算文本相似度，输出所述匹配结果。

2.根据权利要求1所述的方法，其特征在于，所述第一交互层包括：第一嵌入层、第二嵌入层、相似矩阵层和处理层；

所述第一嵌入层，用于对输入的所述第一文本进行词嵌入处理，输出第一处理文本；

所述第二嵌入层，用于对输入的所述第二文本进行词嵌入处理，输出第二处理文本；

所述相似矩阵层，用于将输入的所述第一处理文本和所述第二处理文本进行相似度处理，输出第一权重向量和第二权重向量；

所述处理层，用于将输入的所述第二权重向量与所述第一处理文本融合，输出第一文本向量，以及将所述第一权重向量与所述第二处理文本融合，输出第二文本向量。

3.根据权利要求2所述的方法，其特征在于，所述相似矩阵层具体用于：

确定所述第一处理文本和所述第二处理文本的相似度矩阵；

对所述相似度矩阵进行行归一化处理，得到所述第一权重向量，以及对所述相似度矩阵进行列归一化处理，得到所述第二权重向量。

4.根据权利要求1所述的方法，其特征在于，所述分布层包括：第一粒度网络、第二粒度网络、第一记忆网络、第二记忆网络、第一注意力层和第二注意力层；

所述第一粒度网络，用于对输入的所述第一文本向量进行多粒度提取，得到多个不同的第一粒度信息，并将所述第一粒度信息进行拼接，得到第一拼接向量；

所述第一记忆网络，用于对输入的所述第一拼接向量进行特征提取，输出提取的第一特征向量；

第一注意力层，用于对输入的所述第一特征向量进行表示学习，输出所述第三文本向量；

所述第二粒度网络，用于对输入的所述第二文本向量进行多粒度提取，得到多个不同的第二粒度信息，并将所述第二粒度信息进行拼接，得到第二拼接向量；

所述第二记忆网络，用于对输入的所述第二拼接向量进行特征提取，输出提取的第二特征向量；

第二注意力层，用于对输入的所述第二特征向量进行表示学习，输出所述第四文本向量。

5.根据权利要求4所述的方法，其特征在于，所述第一粒度网络具体用于：

利用多组尺寸不同的卷积窗口对输入的所述第一文本向量进行特征提取，得到多个不同的第一粒度信息，并将所述第一粒度信息进行拼接，得到第一拼接向量；

所述第二粒度网络具体用于：

利用多组尺寸不同的卷积窗口对输入的所述第二文本向量进行特征提取，得到多个不同的第二粒度信息，并将所述第二粒度信息进行拼接，得到第二拼接向量。

6.根据权利要求1所述的方法，其特征在于，所述第二交互层包括：拼接层和全连接层；

所述拼接层，用于将输入的所述第三文本向量和所述第四文本向量进行拼接得到第五文本向量；

所述全连接层，用于对输入的所述第五文本向量进行文本相似度计算，输出所述匹配结果。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第一训练文本和第二训练文本；

将所述第一训练文本和所述第二训练文本输入所述文本匹配模型，输出所述第一训练文本和所述第二训练文本的相似度输出值，所述相似度输出值作为所述匹配结果；

基于所述相似度输出值和相似度真实值的偏差，确定损失函数；

利用所述损失函数对所述文本匹配模型进行修正。

8.一种文本匹配装置，其特征在于，所述文本匹配装置包括：

文本匹配单元，用于将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出所述第一文本和所述第二文本的匹配结果；

9.一种电子设备，其特征在于，所述电子设备包括处理器以及与所述处理器耦接的存储器，所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序以实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序在被处理器执行时，实现如权利要求1-7任一项所述的方法。