CN116304748B

CN116304748B - 一种文本相似度计算方法、***、设备及介质

Info

Publication number: CN116304748B
Application number: CN202310553994.9A
Authority: CN
Inventors: 陈松; 廖海; 梁艳; 乔治锡; 李武
Original assignee: Chengdu Technological University CDTU
Current assignee: Chengdu Technological University CDTU
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-07-28
Anticipated expiration: 2043-05-17
Also published as: CN116304748A

Abstract

本发明公开了一种文本相似度计算方法、***、设备及介质，涉及自然语言处理技术领域，其技术方案要点是：获取待计算相似度的目标文本数据，确定表征目标文本数据的词与词之间是否存在依存关系的邻接向量；对目标文本数据进行矢量化编码处理，得到目标文本数据的文本向量；根据邻接向量和构成文本句子的词向量构建目标文本数据的文本语义图；利用多头注意力机制对文本语义图的每个节点的语义特征向量进行多头注意力计算，得到文本语义图的文本注意力特征向量；将文本语义图的文本注意力特征向量与目标文本数据的文本向量进行拼接，得到目标文本数据的文本语义特征向量；对文本语义特征向量进行分类和回归处理，以计算出目标文本数据的相似度。

Description

一种文本相似度计算方法、***、设备及介质

技术领域

本发明涉及一种自然语言处理技术领域，更具体地说，它涉及一种文本相似度计算方法、***、设备及介质。

背景技术

短文本语义相似度计算是自然语言处理中的一个基本问题，其目的是预测两个句子之间的相似度得分。有许多应用程序使用短文本语义相似技术。然而，在这些任务中，短文本不同于新闻和杂志等常见的长文本。短文本的内容过于稀疏，因此，要正确计算两个句子之间的语义相似性并不容易。对于文本语义相似度的计算，现有技术主要有三种方法：基于统计的计算方法。如TF-IDF、LDA、Word2vec通过词汇重合度或距离来计算两个句子的相似度；基于深度学习的计算方法。如CNN、RNN、LSTM先获取句子的向量表示，然后使用神经网络拟合两个句子的相似度；基于预训练语言模型的计算方法。如BERT、ERNIE、T5等方法，使用大规模的未标记语料库在上游任务上预训练模型。

现有技术主要有以下缺陷：（1）没有考虑到短文本句子的词对之间的语法结构特征。语法结构是一个句子的重要语义信息组成，包括主谓关系、动宾关系、核心关系等语法成分。目前基于预训练语言模型的方法并没有对短文本句子的语法进行很好的建模，这导致模型很难提取出短文本句子真正想要表达的语义信息，从而影响相似度计算结果。（2）难以学习到词与词之间的依存关系。短文本句子不同于新闻和杂志等常见的长文本语句，它的内容过于稀疏，这导致一个短文本句子通常缺乏上下文关联。由于在现有方法中，短文本句子的词与词之间的依存关系并没有被考虑加入到语义特征向量中去，这导致难以区分一个短文本句子中词与词之间不同关系的重要性，而这也间接影响了后续的相似度计算结果。

发明内容

本发明解决了现有技术因无法对语法和依存关系进行分析，从而导致后续的相似度计算结果的精度受到影响的问题，本发明提供了一种文本相似度计算方法、***、设备及介质，本发明以文本句子的词的词向量作为节点，以词与词之间所存在的依存关系为边，构建出文本语义图，使得文本语义图具有表征词与词之间的依存关系的能力，从而使得文本语义图能够提取出短文本句子真正想要表达的语义特征向量信息，再结合多头注意力机制对文本语义图所有节点进行注意力计算，确定出文本语义图所有节点的词的文本注意力特征向量，最后再将目标文本数据的文本向量与文本注意力特征向量融合，以进一步增强目标文本数据的文本语义特征向量表示，进而使得一个短文本句子中词与词之间不同关系的重要性得以区分，便于提高后续的相似度计算结果的精度。

本发明的上述技术目的是通过以下技术方案得以实现的：

本申请的第一方面，提供了一种文本相似度计算方法，方法包括：

获取待计算相似度的目标文本数据，其中目标文本数据至少包括一条文本句子；

确定表征目标文本数据的词与词之间是否存在依存关系的邻接向量；

对目标文本数据进行矢量化编码处理，得到目标文本数据的文本向量；

根据邻接向量和构成文本句子的词向量构建目标文本数据的文本语义图，其中在词与词之间存在依存关系时，将词对应的节点连接，以形成文本语义图的一条边；

利用多头注意力机制对文本语义图的每个节点的语义特征向量进行多头注意力计算，得到文本语义图的文本注意力特征向量；

将文本语义图的文本注意力特征向量与目标文本数据的文本向量进行拼接，得到目标文本数据的文本语义特征向量；

对文本语义特征向量进行分类和回归处理，以计算出目标文本数据的相似度。

在一种实现方案中，确定邻接向量的过程包括：

获取文本句子的依存句法树；

根据依存句法树对文本句子的语法成分进行分析，得到表征文本句子的词与词依存关系对的三元组，并将三元组转换为邻接矩阵；其中邻接矩阵中任意一个元素表示文本句子的第i个词与第j个词之间是否存在依存关系；

将邻接矩阵的元素转换为向量，得到表征目标文本数据的词与词之间是否存在依存关系的邻接向量。

在一种实现方案中，对目标文本数据进行矢量化编码处理，得到目标文本数据的文本向量，包括：

利用文本顺序标记对目标文本数据所包括的文本句子进行拼接，得到拼接文本数据；

将拼接文本数据输入至多个transformer层进行文本向量化，输出目标文本数据的文本向量，其中每个transformer层均由多头自注意力网络和前馈网络构成的。

在一种实现方案中，利用多头注意力机制对文本语义图的每个节点的语义特征向量进行多头注意力计算，得到文本语义图的文本注意力特征向量，包括：

根据文本语义图所包含的词节点，将词节点划分为第一词节点和第二词节点，其中，与第一词节点相邻的节点均为第二词节点；

根据第一词节点和第二词节点在文本语义图中的语义特征向量，逐个计算出第一词节点的注意力互相关系数；

对注意力互相关系数进行归一化处理，得到第一词节点的注意力分数；

根据注意力分数对第二词节点的语义特征向量进行加权求和，得到第一词节点的语义特征向量；

基于多头注意力机制对第一词节点的语义特征向量分配K组相互独立的注意力计算，并对注意力计算的计算结果做平均化处理，得到文本语义图的文本注意力特征向量；其中K为正整数。

本申请的第二方面，提供了一种文本相似度计算***，***包括：

数据获取模块，用于获取待计算相似度的目标文本数据，其中目标文本数据至少包括一条文本句子；

依存关系确定模块，用于确定表征目标文本数据的词与词之间是否存在依存关系的邻接向量；

文本编码模块，用于对目标文本数据进行矢量化编码处理，得到目标文本数据的文本向量；

图构建模块，用于根据邻接向量和构成文本句子的词向量构建目标文本数据的文本语义图，其中在词与词之间存在依存关系时，将词对应的节点连接，以形成文本语义图的一条边；

特征计算模块，用于利用多头注意力机制对文本语义图的每个节点的语义特征向量进行多头注意力计算，得到文本语义图的文本注意力特征向量；

特征拼接模块，用于将文本语义图的文本注意力特征向量与目标文本数据的文本向量进行拼接，得到目标文本数据的文本语义特征向量；

相似度计算模块，用于对文本语义特征向量进行分类和回归处理，以计算出目标文本数据的相似度。

在一种实现方案中，依存关系确定模块包括：

数据获取子模块，获取文本句子的依存句法树；

依存关系分析模块，用于根据依存句法树对文本句子的语法成分进行分析，得到表征文本句子的词与词依存关系对的三元组，并将三元组转换为邻接矩阵；其中邻接矩阵中任意一个元素表示文本句子的第i个词与第j个词之间是否存在依存关系；

特征转换模块，用于将邻接矩阵的元素转换为向量，得到表征目标文本数据的词与词之间是否存在依存关系的邻接向量。

在一种实现方案中，文本编码模块包括：

句子拼接模块，用于利用文本顺序标记对目标文本数据所包括的文本句子进行拼接，得到拼接文本数据；

处理模块，用于将拼接文本数据输入至多个transformer层进行文本向量化，输出目标文本数据的文本向量，其中每个transformer层均由多头自注意力网络和前馈网络构成的。

在一种实现方案中，特征计算模块包括：

节点划分模块，用于根据文本语义图所包含的词节点，将词节点划分为第一词节点和第二词节点，其中，与第一词节点相邻的节点均为第二词节点；

注意力互相关系数计算模块，用于根据第一词节点和第二词节点在文本语义图中的语义特征向量，逐个计算出第一词节点的注意力互相关系数；

归一化模块，用于对注意力互相关系数进行归一化处理，得到第一词节点的注意力分数；

语义特征向量计算模块，用于根据注意力分数对第二词节点的语义特征向量进行加权求和，得到第一词节点的语义特征向量；

文本注意力特征向量计算模块，用于基于多头注意力机制对第一词节点的语义特征向量分配K组相互独立的注意力计算，并对注意力计算的计算结果做平均化处理，得到文本语义图的文本注意力特征向量；其中K为正整数。

本申请的第三方面，提供了一种电子设备，包括存储器以及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器运行时执行如本申请的第一方面所述的文本相似度计算方法。

本申请的第四方面，提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行如本申请的第一方面所述的文本相似度计算方法的步骤。

与现有技术相比，本发明具有以下有益效果：

1、本发明提供的相似度计算方法，以文本句子的词的词向量作为节点，以词与词之间所存在的依存关系为边，构建出文本语义图，使得文本语义图具有表征词与词之间的依存关系的能力，从而使得文本语义图能够提取出短文本句子真正想要表达的语义特征向量信息，再结合多头注意力机制对文本语义图所有节点进行注意力计算，确定出文本语义图所有节点的词的文本注意力特征向量，最后再将目标文本数据的文本向量与文本注意力特征向量融合，以进一步增强目标文本数据的文本语义特征向量表示，进而使得一个短文本句子中词与词之间不同关系的重要性得以区分，便于提高后续的相似度计算结果的精度。

2、本发明提供的相似度计算方法，基于句法依存关系和预训练语言模型的方法能够有效的形成文本句子的文本向量，以此区分由句法和歧义等形式所导致的语义相似性识别错误问题，实现了更高的召回率和相似度计算效果。

此为，本申请的第二方面至第四方面提供的文本相似度计算***、设备及介质，具备与上述实现方案提供的文本相似度计算方法相同的技术效果，此处不再做多余的赘述。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本申请实施例提供的一种文本相似度计算方法的流程示意图；

图2为本申请实施例提供的确定邻接向量的流程示意图；

图3为本申请实施例提供的提取文本向量的流程示意图；

图4为本申请实施例提供的计算文本注意力特征向量的流程示意图；

图5为本申请实施例提供的一种文本相似度计算***的结构框图。

实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

如背景技术所述，对于文本语义相似度的计算，现有技术主要有三种方法：基于统计的计算方法。如TF-IDF、LDA、Word2vec通过词汇重合度或距离来计算两个句子的相似度；基于深度学习的计算方法。如CNN、RNN、LSTM先获取句子的向量表示，然后使用神经网络拟合两个句子的相似度；基于预训练语言模型的计算方法。如BERT、ERNIE、T5等方法，使用大规模的未标记语料库在上游任务上预训练模型。

基于上述实例所，现有技术可能存在以下缺陷：（1）、没有考虑到短文本句子的词对之间的语法结构特征。语法结构是一个句子的重要语义信息组成，包括主谓关系、动宾关系、核心关系等语法成分。目前基于预训练语言模型的方法并没有对短文本句子的语法进行很好的建模，这导致模型很难提取出短文本句子真正想要表达的语义信息，从而影响相似度计算结果。（2）、难以学习到词与词之间的依存关系。短文本句子不同于新闻和杂志等常见的长文本语句，它的内容过于稀疏，这导致一个短文本句子通常缺乏上下文关联。由于在现有方法中，短文本句子的词与词之间的依存关系并没有被考虑加入到语义特征向量中去，这导致难以区分一个短文本句子中词与词之间不同关系的重要性，而这也间接影响了后续的相似度计算结果。

现有的将语法注入到预训练语言模型中的研究通常只考虑了本节点的学习特征，而没有考虑到邻域节点的特征学习。作为本领域可以理解是，文本相似度计算任务是一个连续的学习任务，词语或词组间存在依存的语义关系，所以现有的方法对于文本语义相似度计算的结果的精度是偏低的。

为解决上述问题，本申请实施例提供了一种文本相似度计算方法，基于文本句法分析技术DDParser对文本进行句法依存关系进行提取，形成邻接向量。然后，基于ESM-2预训练语言模型对文本语义信息进行编码，并使用关系图注意力网络RGAT对文本句子进行深度语义编码以构建文本语义图，可以理解的是，文本语义图的本质是一种图神经网络，这是本领域技术人员的公知常识，具体来说，将构成目标文本数据的词向量作为文本语义图网络的节点，将词之间的句法依存关系作为图网络的边，并利用多头注意力机制进行深度语义学习。最后，使用全连接神经网络对文本注意力图中的特征进行分类和回归，以计算文本句子之间的相似性得分。

需要说明的是，结合背景所述的内容，本实施例提供的文本相似度计算方法的应用对象可以是短文本句子，也可以是长文本句子，具体的，针对短文本句子而言，应用本实施例提供的计算方法，基于所构建的文本语义图能够提取出短文本句子真正想要表达的语义特征向量信息，再结合多头注意力机制对文本语义图所有节点进行注意力计算，确定出文本语义图所有节点的词的文本注意力特征向量，最后再将目标文本数据的文本向量与文本注意力特征向量融合，以进一步增强短文本句子的文本语义特征向量表示，进而使得一个短文本句子中词与词之间不同关系的重要性得以区分，便于提高针对短文本句子的相似度计算结果的精度。

相应地，词可以是单个词语，也可以是由多个词语所构成的词组，本实施例不做具体的限定。

下面以具体地实施例对本实施例的技术方案以及本实施例的技术方案如何解决上述问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述，请参考图1，图1为本申请实施例提供的一种文本相似度计算方法的流程示意图，如图1所示，方法包括S110-S170四个步骤，应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。方法包括以下步骤：

S110，获取待计算相似度的目标文本数据，其中目标文本数据至少包括一条文本句子。

具体的，目标文本数据，可以是指书面语言的表现形式通常是具有完整、***含义的一个句子或多个句子的组合。文本句子可以是一个句子、一个段落或者一个篇章，可以是任何由书写所固定下来的任何话语。

相应的，由于后续步骤S170涉及到对于目标文本数据的相似度计算，故此，还需要获取由数据库所存储的多个标准文本句子，或者构建好的标准数据集，这是本领域技术的公知常识，此处不做具体的赘述。当然，还可以是对目标文本数据所包括的文本句子之间的相似度计算。例如在目标文本数据的文本句子为三条，那么以两两组合的方式进行分组，以此计算两两分组得到的文本句子之间的相似度。

S120，确定表征目标文本数据的词与词之间是否存在依存关系的邻接向量。

具体的，可以使用现成的工具包DDParser对目标文件数据进行分析，获得一个文本句子的语法成分，例如主谓关系、动宾关系、核心关系等，依据这些语法成分确定文本句子真正想要表达的语义信息，进一步的，分析各语法成分之间的关系，从而确定构成文本句子的词与词之间是否存在依存关系，以此确定在文本句子中词与词之间的关系重要性，从而使得文本句子的上下文的语义更加清晰，便于后续能够容易的区分一个文本句子中词与词之间不同关系的重要性，进而提升相似度计算结果的精度。

S130，对目标文本数据进行矢量化编码处理，得到目标文本数据的文本向量。

本实施例中，采用ESM-2预训练语言模型对目标文本数据进行矢量化编码处理，得到文本向量，此为本领域技术人员的常规技术手段，故此，不对ESM-2预训练语言模型编码处理过程做详细解释。

S140，根据邻接向量和构成文本句子的词向量构建目标文本数据的文本语义图，其中在词与词之间存在依存关系时，将词对应的节点连接，以形成文本语义图的一条边。

本实施例中，是以构成文本句子的词向量作为节点特征，以表征词与词之间是否存在依存关系的邻接向量作为边特征，从而构建目标文本数据的文本语义图，即该文本语义图是包含词节点和依存关系的图神经网络，通过该图神经网络可以提取出网络中每个节点的语义特征向量。使得文本语义图能够学习到词或词组之间的依存关系。以便于文本语义图能够更加容易的区分一个文本句子中词与词间不同关系的重要性，从而提升相似度计算的准确度。

S150，利用多头注意力机制对文本语义图的每个节点的语义特征向量进行多头注意力计算，得到文本语义图的文本注意力特征向量。

具体的，由于文本相似度计算任务是一个连续的任务，词和/或词组间存在依存的语义关系，针对现有的方法，只考虑了本节点的学习特征，而没有考虑到邻域节点的特征学习，所以现有的方法很难适用于文本语义相似度计算。

故此，本实施例利用多头注意力机制能够计算出文本语义图的节点和其邻域节点的联合特征，从而实现了节点特征和依存关系的有效融合，更加全面地计算出目标文本数据的特征。

多头注意力机制(Multi-head attention mechanism)是指能够对需要重点关注的区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，并且抑制其他无用信息。

S160，将文本语义图的文本注意力特征向量与目标文本数据的文本向量进行拼接，得到目标文本数据的文本语义特征向量。

本实施例中，将步骤S150和步骤S130文本注意力特征向量和文本向量进行拼接，是为了增强文本的语义表示，从而得到目标文本数据的更加全面的整体语义特征向量。

S170，对文本语义特征向量进行分类和回归处理，以计算出目标文本数据的相似度。

本实施例中，使用全连接神经网络对文本语义特征向量进行分类和回归，以计算文本句子之间的相似度得分。即将文本语义特征向量使用全连接网络分类的方法，将所有词语或词组聚合为该文本句子的表示，进而得到其分类标签，需要理解的是，本实施例中对于相似度的计算是采用的现有技术，故此，此处不做多余的赘述。

如图2所示，在一个实施例中，确定邻接向量的过程包括以下步骤：

S210，获取文本句子的依存句法树。

本实施例中，获取文本句子S的依存句法树T。根据依存句法分析结果得到文本句子的句法依存关系图，该依存关系图是文本一个有向图，其中，/>代表节点对应句子中的每一个词，/>代表有向边(Arc)表示词与词之间存在依存关系。边/>上包括一个label表示具体的依存关系。假设/>为/>中的核心词（Root），而依存句法提取将获取核心词（Root）到它的依存语法树的映射。

S220，根据依存句法树对文本句子的语法成分进行分析，得到表征文本句子的词与词依存关系对的三元组，并将三元组转换为邻接矩阵；其中邻接矩阵中任意一个元素表示文本句子的第i个词与第j个词之间是否存在依存关系。

具体的，利用依存句法树T对文本句子的语法成分分析并不关注词成分，而是直接关注词本身以及词之间的二元依存关系。因此，为了更好的学习依存关系，将依存句法分析结果得到的依存图转换为一个关系三元组/>，即/>，其中，和/>分别表示文本句子中的第i个词和第j个词，/>表示词与词之间的依存关系类型，即存在依存关系和不存在依存关系。

S230，将邻接矩阵的元素转换为向量，得到表征目标文本数据的词与词之间是否存在依存关系的邻接向量。

本实施例中，将三元组转换为邻接矩阵/>，其中/>表示矩阵大小。为了剔除依存关系中的部分噪音数据，以及便于注意力层计算词与词间的关系注意力特征。因此，在领接矩阵/>中忽略词与词之间的具体依存方向，而只关注其是否存在关系，故，将邻接矩阵A特征化，转换为向量，得到邻接向量/>，用以表示第/>个词与第/>个词是否存在依存关系，如下式所示：/>。

如图3所示，在一个实施例中，对目标文本数据进行矢量化编码处理，得到目标文本数据的文本向量，包括以下步骤：

S310，利用文本顺序标记对目标文本数据所包括的文本句子进行拼接，得到拼接文本数据。

在本实施例中，以两条文本句子为例，为了学习到文本句子和文本句子/>两个句子间的深层次交互特征，使用文本顺序标记/>和/>将两个句子拼接在一起。经过标记化后的拼接文本数据/>如下式所示：

。其中，/>表示文本句子/>第1个词，/>表示文本句子/>第2个词，/>表示文本句子/>第3个词，/>表示文本句子/>第i个词，/>表示文本句子/>第1个词，/>表示文本句子/>第2个词，/>表示文本句子/>第3个词，/>表示文本句子/>第j个词。

S320，将拼接文本数据输入至多个transformer层进行文本向量化，输出目标文本数据的文本向量，其中每个transformer层均由多头自注意力网络和前馈网络构成的。

本实施例中，以一个文本序列作为输入，并应用 N 个transformer层来产生文本句子的上下文语义，/>；其中/>，表示transformer层的第n层，/>是文本序列输入的嵌入，每个transformer层都包含一个具有相同架构的transformer块，由多头自注意力和前馈网络层FFN组成。transformer层的输出计算如下：

，其中，/>表示第n层的注意力向量，LN表示第n层的前馈神经网络层，/>表示第1个头自注意力，/>表示第h个头自注意力，h表示头的个数，/>表示权重矩阵。

；其中，V表示值矩阵，Q表示查询矩阵，表示第h个头自注意力，/>表示键矩阵点乘，T表示权重向量，/>表示k的权重矩阵，k表示键矩阵。

，取最后一层文本顺序标记[CLS]处的表示作为文本句子嵌入的文本向量，文本向量记为/>，其中，R表示实数取值范围，d表示整数，/>表示查询矩阵的维度，q表示查询矩阵，/>表示向量取值范围。

如图4所示，在一个实施例中，利用多头注意力机制对文本语义图的每个节点的语义特征向量进行多头注意力计算，得到文本语义图的文本注意力特征向量，包括以下步骤：

S410，根据文本语义图所包含的词节点，将词节点划分为第一词节点和第二词节点，其中，与第一词节点相邻的节点均为第二词节点。

在本实施例中，假设文本语义图含有B个由词向量构成的词节点，输入文本语义图的每个词节点的语义特征向量表示为，F表示词节点的语义特征向量的维度，R表示，i表示第一词节点。将节点B划分第一词节点/>和第二词节点/>，其相应的语义特征向量分别为/>和/>。

S420，根据第一词节点和第二词节点在文本语义图中的语义特征向量，逐个计算出第一词节点的注意力互相关系数。

本实施例中，对于第一词节点，逐个计算第一词节点的所有相邻第二词节点之间的注意力互相关系数。如下公式所示：/>，其中，a表示一个共享注意力，/> 表示词节点i的权重向量，/> 表示词节点j的权重向量，可将词节点的高维特征映射到一个实数上。/>表示一个可学习的权值矩阵，可将输入的词节点的语义特征向量转换为F维的高维特征，/>表示语义特征向量维度，/>表示语义特征向量起始维度。

S430，对注意力互相关系数进行归一化处理，得到第一词节点的注意力分数。

本实施例中，为了更好的在不同的词节点之间分配注意力权重，对第一词节点和所有相邻的第二词节点之间的注意力互相关系数进行归一化处理，得到归一化的注意力分数。

，其中，/>表示键矩阵点乘，k表示键矩阵，exp表示e为底的指数函数。

S440，根据注意力分数对第二词节点的语义特征向量进行加权求和，得到第一词节点的语义特征向量。

具体的，将文本语义图表征文本句子的所有第二词节点的语义特征向量进行加权求和，得到第一词节点经过注意力计算后的语义特征向量表示为：，其中，/>表示第j个第二词节点的语义特征向量，/>表示激活函数。

S450，基于多头注意力机制对第一词节点的语义特征向量分配K组相互独立的注意力计算，并对注意力计算的计算结果做平均化处理，得到文本语义图的文本注意力特征向量；其中K为正整数。

为了使自注意力计算的特征更加稳定，使用多头注意力机制对第一词节点的语义特征向量分配K组相互独立的注意力计算，然后将计算结果平均化，改写式得：/>；其中，K表示分配的注意力计算的组数。

最终，为了增强文本句子的上下文语义表示，将上述实施例计算得到的文本注意力特征向量与目标文本数据的文本向量进行拼接，从而得到表征文本语义图的整体特征的文本语义特征向量，表示为：。

应当注意，尽管在附图1-4中以特定顺序描述了本实施例中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，将本申请提供的方法在两个公共文本相似度数据集（包括MRPC数据集和BOSSIOS数据集）进行评估。对于文本相似度计算，本申请在MRPC数据集上的所有方法中取得了最高的性能，F1得分为93.1%，在BOSSIOS数据集上计算相似度，Pearson得分88.1%。结果表明，与传统的相似度计算方法相比，本申请提出的计算方法更适合捕获文本句子的语义特征向量信息，从而取得更好的相似度计算效果。

如图5所示，本实施例还提供了一种文本相似度计算***，***包括：

数据获取模块510，用于获取待计算相似度的目标文本数据，其中目标文本数据至少包括一条文本句子；

依存关系确定模块520，用于确定表征目标文本数据的词与词之间是否存在依存关系的邻接向量；

文本编码模块530，用于对目标文本数据进行矢量化编码处理，得到目标文本数据的文本向量；

图构建模块540，用于根据邻接向量和构成文本句子的词向量构建目标文本数据的文本语义图，其中在词与词之间存在依存关系时，将词对应的节点连接，以形成文本语义图的一条边；

特征计算模块550，用于利用多头注意力机制对文本语义图的每个节点的语义特征向量进行多头注意力计算，得到文本语义图的文本注意力特征向量；

特征拼接模块560，用于将文本语义图的文本注意力特征向量与目标文本数据的文本向量进行拼接，得到目标文本数据的文本语义特征向量；

相似度计算模块570，用于对文本语义特征向量进行分类和回归处理，以计算出目标文本数据的相似度。

在一个实施例中，依存关系确定模块包括：

数据获取子模块，获取文本句子的依存句法树；

在一个实施例中，文本编码模块包括：

在一个实施例中，特征计算模块包括：

上述文本相似度计算***中各模块的具体细节已经在对应的文本相似度计算方法中进行了详细的描述，因此此处不再赘述。应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。

本发明再一个实施例中，提供了一种电子设备，该电子设备包括一个或多个处理器；存储器，与所述处理器耦接，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述实施例所述的一种文本相似度计算方法的步骤。处理器可能是中央处理单元 (CPU)，还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路、现成可编程门阵列（FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于执行文本相似度计算方法的操作。

本发明再一个实施例中，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作***。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速 RAM 存储器，也可以是非不稳定的存储器，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关文本相似度计算方法的相应步骤。本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本相似度计算方法，其特征在于，方法包括：

利用多头注意力机制对文本语义图的每个节点的语义特征向量进行多头注意力计算，得到文本语义图的文本注意力特征向量，其中，根据文本语义图所包含的词节点，将词节点划分为第一词节点和第二词节点，其中，与第一词节点相邻的节点均为第二词节点；根据第一词节点和第二词节点在文本语义图中的语义特征向量，逐个计算出第一词节点的注意力互相关系数；对注意力互相关系数进行归一化处理，得到第一词节点的注意力分数；根据注意力分数对第二词节点的语义特征向量进行加权求和，得到第一词节点的语义特征向量；基于多头注意力机制对第一词节点的语义特征向量分配K组相互独立的注意力计算，并对注意力计算的计算结果做平均化处理，得到文本语义图的文本注意力特征向量；其中K为正整数；

2.根据权利要求1所述的一种文本相似度计算方法，其特征在于，确定邻接向量的过程包括：

获取文本句子的依存句法树；

3.根据权利要求1所述的一种文本相似度计算方法，其特征在于，对目标文本数据进行矢量化编码处理，得到目标文本数据的文本向量，包括：

4.一种文本相似度计算***，其特征在于，***包括：

特征计算模块，用于利用多头注意力机制对文本语义图的每个节点的语义特征向量进行多头注意力计算，得到文本语义图的文本注意力特征向量，其中，特征计算模块包括：节点划分模块，用于根据文本语义图所包含的词节点，将词节点划分为第一词节点和第二词节点，其中，与第一词节点相邻的节点均为第二词节点；注意力互相关系数计算模块，用于根据第一词节点和第二词节点在文本语义图中的语义特征向量，逐个计算出第一词节点的注意力互相关系数；归一化模块，用于对注意力互相关系数进行归一化处理，得到第一词节点的注意力分数；语义特征向量计算模块，用于根据注意力分数对第二词节点的语义特征向量进行加权求和，得到第一词节点的语义特征向量；文本注意力特征向量计算模块，用于基于多头注意力机制对第一词节点的语义特征向量分配K组相互独立的注意力计算，并对注意力计算的计算结果做平均化处理，得到文本语义图的文本注意力特征向量；其中K为正整数；

5.根据权利要求4所述的一种文本相似度计算***，其特征在于，依存关系确定模块包括：

数据获取子模块，获取文本句子的依存句法树；

6.根据权利要求4所述的一种文本相似度计算***，其特征在于，文本编码模块包括：

7.一种电子设备，其特征在于，包括存储器以及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器运行时执行权利要求1至3中任一项所述的文本相似度计算方法。

8.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序在处理器上运行时执行权利要求1至3中任一项所述的文本相似度计算方法的步骤。