CN111666375B

CN111666375B - 文本相似度的匹配方法、电子设备和计算机可读介质

Info

Publication number: CN111666375B
Application number: CN202010432317.8A
Authority: CN
Inventors: 刘江宁; 鞠剑勋; 李健
Original assignee: Shanghai Zhilv Information Technology Co ltd
Current assignee: Shanghai Zhilv Information Technology Co ltd
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2023-07-04
Anticipated expiration: 2040-05-20
Also published as: CN111666375A

Abstract

本发明公开了一种文本相似度的匹配方法、电子设备和计算机可读介质，所述匹配方法包括以下步骤：获取输入文本，所述输入文本包括至少一输入词汇；将所述输入文本输入至文本相似度匹配模型以进行匹配预测，其中，通过图神经网络将所述至少一输入词汇的一般上下文信息分别引入至所述输入文本中，并且根据引入后的输入文本进行匹配预测；以及，输出通过所述文本相似度匹配模型匹配预测后的预测文本的标签。本发明可以有效地完成短文本的相似度匹配任务，从而极大地提升了匹配准确率及匹配效率。

Description

文本相似度的匹配方法、电子设备和计算机可读介质

技术领域

本发明涉及人工智能技术领域，特别涉及一种基于融合词汇上下文特征的短文本相似度的匹配方法。

背景技术

近年来，得益于深度学习的快速发展，文本相似度匹配任务(如搜索、检索式问答等)取得了显著的进步。文本相似度匹配任务可定义为：给定一段输入文本作为Query，然后在候选文档或答案集合candidates中匹配出与其最为相关的文档或答案。

目前，文本相似度匹配模型通常借助词汇及其在输入文本中的上下文信息来分析输入文本所表达的意思，进而通过一些深度学习架构在候选集合candidates中匹配出与其最为相关的文档或答案。

但是，当面对仅仅由若干甚至一个词汇构成的短文本Query时，由于上下文或语境信息的严重缺失，通用的文本相似度匹配模型对短文本的理解则束手无策，导致降低匹配准确率及匹配效率。

发明内容

本发明要解决的技术问题是为了克服现有技术中文本相似度匹配模型无法有效地匹配出短文本，导致降低匹配准确率及匹配效率的缺陷，提供一种文本相似度的匹配方法、电子设备和计算机可读介质，尤其是一种基于融合词汇上下文特征的短文本相似度的匹配方法。

本发明是通过下述技术方案来解决上述技术问题：

一种文本相似度的匹配方法，包括以下步骤：

获取输入文本，所述输入文本包括至少一输入词汇；

将所述输入文本输入至文本相似度匹配模型以进行匹配预测，其中，通过图神经网络将所述至少一输入词汇的一般上下文信息分别引入至所述输入文本中，并且根据引入后的输入文本进行匹配预测；以及，

输出通过所述文本相似度匹配模型匹配预测后的预测文本的标签。

可选地，还包括以下步骤：

获取训练文本，所述训练文本包括至少一训练词汇；

将所述训练文本输入至文本相似度匹配模型以进行模型训练，其中，通过图神经网络将所述至少一训练词汇的一般上下文信息分别引入至所述训练文本中，并且根据引入后的训练文本进行模型训练。

可选地，在通过图神经网络将所述至少一输入词汇的一般上下文信息分别引入至所述输入文本中的步骤中，

基于均值操作将所述至少一输入词汇的一般上下文信息与原有语义进行融合并引入至所述输入文本中；

在通过图神经网络将所述至少一训练词汇的一般上下文信息分别引入至所述训练文本中的步骤中，

基于均值操作将所述至少一训练词汇的一般上下文信息与原有语义进行融合并引入至所述训练文本中。

可选地，所述进行匹配预测的步骤还包括：

还对所述输入文本的每个输入词汇分别引入一个二元特征(binary feature ofexact match)，所述二元特征用于表征对应的词汇是否存在于待匹配的候选文档或答案中；

所述进行模型训练的步骤还包括：

还对所述训练文本的每个训练词汇分别引入一个所述二元特征。

可选地，所述进行匹配预测的步骤包括模型编码步骤，所述模型编码步骤包括：

通过以ReLU函数(线性整流函数)为激活函数的全连接层和双向循环神经网络对输入文本对应的向量表示序列和候选集合对应的向量表示序列进行编码。

可选地，所述模型编码步骤还包括：

对输入文本对应的向量表示序列进行编码后，还通过高速公路网络对输入文本的特征表示进行进一步编码。

可选地，所述进行匹配预测的步骤包括交互注意步骤，所述交互注意步骤包括：

基于权重的池化操作对输入文本的特征表示序列进行特征聚合，以获取信息聚合的特征向量；

利用基于权重的池化操作分别对候选集合中的每个候选项进行特征聚合。

可选地，所述交互注意步骤还包括：

分别计算出输入文本注意候选集合的权重以及候选集合注意输入文本的权重；

基于计算出的两个注意权重，分别提炼出与输入文本与候选集合相关的特征；

通过两个不同的高速公路网络对关联信息进行融合，分别获取输入文本和候选集合的最终表示。

可选地，所述进行匹配预测的步骤包括相似度计算步骤，所述相似度计算步骤包括：

计算输入文本与候选集合中每个候选答案的相似度，并且选取出相似度最高的候选答案作为预测文本的标签。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行计算机程序时实现如上述的文本相似度的匹配方法的步骤。

一种计算机可读介质，其上存储有计算机指令，其特征在于，所述计算机指令在由处理器执行时实现如上述的文本相似度的匹配方法的步骤。

在符合本领域常识的基础上，所述各优选条件，可任意组合，即得本发明各较佳实施例。

本发明的积极进步效果在于：

本发明提供的文本相似度的匹配方法，可以有效地完成短文本的相似度匹配任务，从而极大地提升了匹配准确率及匹配效率。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的所述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1为根据本发明的一实施例的文本相似度的匹配方法的流程示意图。

图2为根据本发明的一实施例的文本相似度匹配模型的结构示意图。

图3为根据本发明另一实施例的实现文本相似度的匹配方法的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

为了克服目前存在的上述缺陷，本实施例提供一种文本相似度的匹配方法，所述匹配方法包括以下步骤：获取输入文本，所述输入文本包括至少一输入词汇；将所述输入文本输入至文本相似度匹配模型以进行匹配预测，其中，通过图神经网络将所述至少一输入词汇的一般上下文信息分别引入至所述输入文本中，并且根据引入后的输入文本进行匹配预测；以及，输出通过所述文本相似度匹配模型匹配预测后的预测文本的标签。

在本实施例中，所述匹配方法主要涉及人工智能范畴，尤其涉及自然语言处理领域，而且主要运用了图卷积网络(GCN)、循环神经网络(RNN)和注意力机制等技术。

在本实施例中，所述匹配方法可以有效地完成短文本的相似度匹配任务，从而极大地提升了匹配准确率及匹配效率。

具体地，作为一实施例，如图1所示，本实施例提供的文本相似度的匹配方法主要包括以下步骤：

步骤101、获取训练文本，根据训练文本训练文本相似度匹配模型。

在本步骤中，接收一组训练文本，所述训练文本为用于训练模型的短文本，并且输入到文本相似度匹配模型，以训练所述文本相似度匹配模型。

如图2所示，本实施例的文本相似度匹配模型主要包括输入嵌套层、模型编码层、交互注意层和输出层，以下具体说明各个层的工作流程。

1)输入嵌套层(Input Embedding Layer)

给定一条训练短文本

和主要由若干条答案所构成的候选答案集合/>

输入嵌套层旨在将由字符构成的文本转化为蕴含语义特征的向量序列：

其中

上标大C指代候选答案的数量，E表示GloVe词汇向量矩阵；

指代由m个词汇构成的Query中的第t个词汇，/>

指代Query中的第t个词汇的向量表示；候选答案符号意思同上。

在本实施例中，通过图神经网络将词汇在文档中的一般上下文信息引入短文本query中，以此丰富短文本的语境。

首先，本实施例基于某个具体领域的文本数据语料构造了一个词汇互信息图(PMI，point-wise mutual information)，PMI＝(V,E)，图2中的每个节点v_i∈V代表语料中的一个词汇，E表示节点间边的集合。

其次，基于该互信息图的邻接矩阵和度矩阵构造一个归一化的拉普拉斯矩阵A，矩阵中的值代表词汇间的关联权重。

最后，计算短文本Query和V间的词汇交集V′(|V′|＝K)，K表示交集中节点的数量，并且从矩阵A中采样与V′中节点相关联的权重A′，即V′中节点在矩阵A中对应的行。

基于以上信息，本实施例通过谱图卷积网络GCN提取与V′中词汇相关联的上下文信息：

其中，σ为激活函数ReLU，W为可训练的参数矩阵，c_i为第i词汇所对应的上下文向量。

为了在引入词汇上下文信息的同时不损失其原有语义，本实施例基于均值操作将词汇上下文信息与其原有语义进行融合：

其中，

为词汇交集V′对应于/>

中的词汇序列，U为/>

与V′的差集。

此外，本实施例为短文本中的每个词汇引入一个二元特征，该二元特征用于表明该词汇是否存在于待匹配的候选文档或答案中，目的是突出该词汇在短文本中的重要性，其可以形式化为如下：

当模型引入了词汇在文档中的一般上下文信息时，该二元特征被证明是尤为重要的。

输入嵌套层的最终输出为Query对应的向量表示序列

和Candidates对应的向量表示序列/>

指代将向量/>

与向量/>

拼接在一起。

2)模型编码层(Model Encoding Layer)

模型编码层旨在基于词汇及其上下文信息来分析整段文本的意思。

在该模块，本实施例通过一个以ReLU为激活函数的全连接层和一个双向循环神经网络对Embed__query和Embed__candidates进行编码，生成融合了上下文信息的特征表示：

此外，该模块额外地引入一个高速公路网络(highway networks)对Query的特征表示进行进一步编码，旨在借助文本整体的语境来优化词汇的特征表示：

其中，高速公路网络可进行如下分解：

其中包含W和b的变量皆为可训练的参数，[]指代将两个向量拼接在一起，*为乘法运算。

3)交互注意层(Interactive Attention Layer)

在该模块，本实施例首先基于权重的池化操作weighted-pooling对Query的特征表示序列

进行特征聚合，以得到信息高度聚合的特征向量：

其中，weighted-pooling模块可进行如下分解：

a_j＝softmax(s_j)

由于一段文本中可能包含若干个不同主题的特征，故本实施例进一步通过不同的参数去文中提炼不同主题的特征，如下所示：

其中，上标大L是一个超参数，定义了需要从一段文本中提取主题特征的数量，包含W和b的变量皆为可训练的参数。

其次，本实施例利用weighted-pooling分别对Candidates中的每个候选项

进行特征聚合：

其中，上标大C指代候选答案的数量，包含W和b的变量皆为可训练的参数。

在计算输入文本Query与每个候选答案Candidate的相似度之前，本实施例提出了一个交互式注意机制，以期望基于与彼此相关的信息去优化各自的特征表示。

首先，分别计算出Query注意Candidates的权重A_q及Candidates注意Query的权重A_c；

A_q,A_c＝Bi_Attention(H_q,H_c)

其中，Bi_Attention模块可进行如下分解：

A_q＝softmax(S)

A_c＝sigmoid(S^T)

其中，Query的特征表述H_q和Candidates的特征表述H_c的最后维度大小相等，符号d指最后维度的大小，上表T指代矩阵转置；此外，使用sigmoid作为权重归一化函数意在暗示候选项答案既可以不关注输入文本Query的特征，也可以密切关注其多个不同的特征。

其次，基于两个注意权重，分别提炼出与输入文本Query、与候选答案Candidates相关的特征

和/>

Cxt_q＝A_qH_c

Cxt_c＝A_cH_q

最后，通过两个不同的高速公路网络对关联信息进行融合，分别得到Query和Candidates的最终表示

4)输出层(Output Layer)

输出层计算输入文本Query与每个候选答案Candidate的相似度，并且挑选出与Query最相似的候选答案。

首先，该模块基于权重的池化操作对Query的L个不同的特征进行聚合，生成最终的向量表示z_q：

最后，运用矩阵相乘计算出输入文本Query关于每个候选答案Candidate的相似度a_i：

[a₀,…a_i,…a_C]＝softmax(z_qV_c ^T+b)

其中，a_i是一个标量，代表输入文本Query关于第i个候选答案的相似度，包含W和b的变量皆为可训练的参数。

在本实施例中，如上所述，训练所述文本相似度匹配模型的步骤主要包括以下步骤：

S1、数据处理，即对输入训练文本Query和候选答案集合Candidates进行分词，根据词汇字典生成词汇到其位于字典的索引；

S2、构造词汇互信息图：基于某个具体领域的文本数据语料(本实施例基于景点描述数据)构造一个词汇互信息图PMI；

S3、向量化：从外部引入训练好的词向量矩阵GloVe，将词汇转化为向量，即根据词汇索引去GloVe中查询对应的词向量；

S4、将词汇互信息图PMI、输入训练文本Query对应的向量表示序列和候选答案集合Candidates对应的向量表示序列集合输入到模型中的输入嵌套层，以得到对应的特征表示Embed__query和Embed__candidates；

S5、将输入训练文本Query和候选答案集合Candidates的特征表示输入到模型编码层，以得到输入训练文本Query和候选答案集合Candidates的中间件表示

和

S6、将从步骤S5中得到的U_q和Ecand输入到交互注意层，以得到Query和Candidates的最终表示V_q，V_c；

S7、将Query和Candidates的最终表示V_q，V_c输入到模型输出层，以得到Query关于每个候选答案Candidate的相似度a_i；

S8、根据Query的真实候选答案和模型预测的候选答案的概率分布计算交叉熵损失，使用Adam(Adaptive Moment Estimation)优化算法(深度学习中的优化算法)对损失极小化，不断迭代训练得到最终的所述文本相似度匹配模型。

步骤102、获取输入文本，根据训练后的文本相似度匹配模型进行匹配预测。

在本步骤中，所述输入文本优选为短文本，利用通过步骤101来训练后的文本相似度匹配模型对所述输入文本进行相似度匹配预测。

在本实施例中，具体匹配预测的步骤可参考步骤101中训练模型时数据处理过程，故不再一一赘述。

步骤103、输出通过文本相似度匹配模型匹配预测后的预测文本的标签。

在本步骤中，经过步骤102中文本相似度匹配模型的计算，最终输出与所述输入文本对应的预测文本的标签。

在本实施例中，具体输出标签的步骤可参考步骤101中训练模型时数据输出过程，故不再一一赘述。

表1为短文本Query在未引入上下文和引入上下文的模型上的预测结果对比。

表1：

短文本Query	未引入上下文预测结果	引入上下文预测结果
			可可西里自然保护区	胡杨林	动物
广州长隆	城镇风光	动物
			大理	地名	古镇古村
稻城亚丁	地名	古镇古村
			欢乐谷	游船	乐园
方特	游船	乐园
			宽窄巷子	寺院祈福	美食
沙县	商务	美食
			普吉	地名	海岛
塞班	商务	海岛

在本实施例中，在短文本测试数据上评估融合词汇上下文特征的文本相似度的匹配方法的有效性。如表1所示，融合词汇上下文特征的文本相似度的匹配方法在蕴含潜在意图的短文本上表现更好。

图3为根据本发明另一实施例提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如上实施例中的文本相似度的匹配方法。图3显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同***组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明如上实施例中的文本相似度的匹配方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图3所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)***、磁带驱动器以及数据备份存储***等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

本实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现如上实施例中的文本相似度的匹配方法中的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现如上实施例中的文本相似度的匹配方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种文本相似度的匹配方法，其特征在于，包括以下步骤：

获取输入文本，所述输入文本包括至少一输入词汇；

输出通过所述文本相似度匹配模型匹配预测后的预测文本的标签；

其中，所述进行匹配预测的步骤包括交互注意步骤，所述交互注意步骤包括：

利用基于权重的池化操作分别对候选集合中的每个候选项进行特征聚合；

其中，所述交互注意步骤还包括：

2.如权利要求1所述的匹配方法，其特征在于，还包括以下步骤：

获取训练文本，所述训练文本包括至少一训练词汇；

3.如权利要求2所述的匹配方法，其特征在于，在通过图神经网络将所述至少一输入词汇的一般上下文信息分别引入至所述输入文本中的步骤中，

4.如权利要求2所述的匹配方法，其特征在于，所述进行匹配预测的步骤还包括：

还对所述输入文本的每个输入词汇分别引入一个二元特征，所述二元特征用于表征对应的词汇是否存在于待匹配的候选文档或答案中；

所述进行模型训练的步骤还包括：

5.如权利要求1所述的匹配方法，其特征在于，所述进行匹配预测的步骤包括模型编码步骤，所述模型编码步骤包括：

通过以ReLU函数为激活函数的全连接层和双向循环神经网络对输入文本对应的向量表示序列和候选集合对应的向量表示序列进行编码。

6.如权利要求5所述的匹配方法，其特征在于，所述模型编码步骤还包括：

7.如权利要求1所述的匹配方法，其特征在于，所述进行匹配预测的步骤包括相似度计算步骤，所述相似度计算步骤包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行计算机程序时实现如权利要求1～7中任意一项所述的文本相似度的匹配方法的步骤。

9.一种计算机可读介质，其上存储有计算机指令，其特征在于，所述计算机指令在由处理器执行时实现如权利要求1～7中任意一项所述的文本相似度的匹配方法的步骤。