CN114580385A

CN114580385A - 一种结合语法的文本语义相似度计算方法

Info

Publication number: CN114580385A
Application number: CN202210252170.3A
Authority: CN
Inventors: 龙军; 向一平; 刘磊; 李浩然
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-06-03

Abstract

本发明公开了一种结合语法的文本语义相似度计算方法，包括获取待计算语义相似度的两个句子；通过深度语义交互模型提取两个句子的语义特征向量；分别构建两个句子的语法依存树，并进行结构化嵌入，分别获得两个句子的语法树特征向量；将两个句子各自的语义特征向量与语法树特征向量进行拼接，分别得到两个句子的最终语义特征向量；基于两个句子的最终语义特征向量计算得到两个句子的语义相似度。本发明的方案提取的句子特征结合了句子中的语法信息，提取到的特征更加全面、深入，充分考虑了句子中的上下文关系，计算得到的相似度准确性更高，同时兼顾平衡了准确率和计算效率。

Description

一种结合语法的文本语义相似度计算方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种结合语法的文本语义相似度计算方法。

背景技术

研究语义层面的相似度计算可以使得计算机更好地对句子进行语义理解。同时，语义理解在各项研究中都有着非常重要的作用。在信息检索中，语义相似度计算可以找出问题匹配程度最高的搜索结果；对于社区问答，可以通过语义相似度计算将相近的问题进行分类使得对某一个问题的回答更加集中；对于翻译软件，语义相似度可以作为原句与译文之间的评价指标。因此，语义相似度计算在各个领域都具有重要的研究意义与价值。

语义相似度计算是自然语言处理领域中一个难题，同时也是文本处理中使用最广泛的技术。对于文本而言，由于多义词，近义词与语言中复杂的语法结构等问题，导致表达同一个意思的句子句式可以有非常多的形式。目前，对于句子的语义相似度计算方式一般分为两类：语义表征方式与语义交互方式。其中语义表征的方式是对句子对中的每一个句子单独计算其语义向量，通过这两个向量计算相似度，而语义交互方式则需要同时对两个句子进行语义建模，并且在建模过程中考虑到两个句子之间的交互特征，从而计算相似度得分。这两种方式互有优劣，对于语义表征方式，一般计算复杂度较低，计算效率高，但是准确率相对而言较低。而语义交互方式的复杂度一般比较高，计算效率较低，其准确率相对而言较高。

发明内容

鉴于现有技术的不足之处，本发明提供了结合语法的文本语义相似度计算方法，以解决现有的语义相似度计算方法难以兼顾准确率和计算效率的问题。

为了实现上述目的，本发明采用如下技术方案。

一种结合语法的文本语义相似度计算方法，包括：

获取待计算语义相似度的两个句子；

通过深度语义交互模型提取两个句子的语义特征向量；

分别构建两个句子的语法依存树，并进行结构化嵌入，分别获得两个句子的语法树特征向量；

将两个句子各自的语义特征向量与语法树特征向量进行拼接，分别得到两个句子的最终语义特征向量；

基于两个句子的最终语义特征向量计算得到两个句子的语义相似度。

进一步地，所述通过深度语义交互模型为使用词MASK训练的BERT衍生模型。

进一步地，构建两个句子的语法依存树过程包括：

分别对两个句子进行语法分析；

基于语法分析并使用Stanford Dependencies所定义的依存树结构得到两个句子的语法依存树。

进一步地，将两个句子的语法依存树进行结构化嵌入，分别获得两个句子的语法树特征向量，过程包括：

对于每个句子的语法依存树，定义语法序列C_p为依存树节点的所有子节点，顺序为词汇在句子中的原始顺序；

定义一个最长序列长度l；

将语法序列C_p中的所有元素输入词嵌入模型中进行计算获取其词嵌入；如果语法序列C_p中元素长度不足l，词嵌入以零矩阵填充以达到最长序列长度；如果语法序列C_p中元素长度超过l，则截断超过长度的元素，仅保留前l个元素，此时新得到的语法序列定义为

分别对两个句子中每个句子中的所有词计算其

得到两个句子的语法序列

和

分别将两个句子的语法序列输入一个双向LSTM神经网络中，得到每个句子中每个词的语法树嵌入，通过拼接从而得到每个句子的语法树特征向量。

进一步地，分别将两个句子的语法序列输入一个双向LSTM神经网络中，得到每个句子中每个词的语法树嵌入，通过拼接从而得到每个句子的语法树特征向量，具体包括：

两个句子的语法序列输入一个双向LSTM神经网络中，该双向LSTM神经网络在t时刻的输出为：

其中，

表示t时刻双向LSTM神经网络的正向输出，

表示t时刻双向LSTM神经网络的反向输出，w_f和w_b代表正向LSTM与反向LSTM的隐藏层状态，b_t代表偏移量；

对于词汇p，获取其语法序列在双向LSTM神经网络的正向网络和反向网络的最后一层状态，构建词汇p的语法树嵌入V＝[E_w,f_m,b_n]，其中，

表示词汇p的词嵌入，f_m表示双向LSTM网络中正向网络的最后一层计算结果，b_n表示双向LSTM网络中反向网络的最后一层计算结果；

对于每个句子中每一个词汇都获取其语法树嵌入，通过拼接从而得到每个句子的语法树特征向量。

进一步地，基于两个句子的最终语义特征向量计算得到两个句子的语义相似度，具体包括：

将两个句子的最终语义特征向量输入最终的预测层计算出最终的语义相似度；

预测层的计算过程包括：将两个句子的最终语义特征向量进行融合，输入一个多层感知机，多层感知机每个隐藏层使用双曲正切函数tanh作为激活函数，多层感知机的计算公式为：

其中，s表示多层感知机的输出，W₁和W₂为参数，b₁和b₂为偏移量，M_A和M_B分别表示两个句子的最终语义特征向量，σ代表tanh激活函数；

多层感知机的输出继续送入一个全连接层，并且使用sigmoid函数作为激活函数，得到一个范围在[0，1]的最终相似度，即为两个句子的语义相似度。

有益效果

本发明提出了一种结合语法的文本语义相似度计算方法，对需要计算的句子对，通过深度语义交互模型对句子对分别进行特征提取，获取句子对的语义特征向量；通过对句子的语法结构分别进行分析，获取句子对的语法依存树；通过神经网络对语法树进行计算，使其转化为语法树特征向量；分别将句子的语义特征向量与语法树特征向量进行拼接，得到结合语法的最终语义特征向量；计算句子的最终语义特征向量之间的向量距离，进而得到句子对之间的语义相似度。通过本发明的方案提取的句子特征不仅包含了词汇和句子编码，还结合了句子的语法特征，提取到的特征更加全面、深入，计算得到的相似度准确性更高，而且计算效率高，兼顾平衡了准确率和计算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的结合语法的文本语义相似度计算方法流程图；

图2是本发明实施例提供的语义特征向量提取结构图；

图3中(a)和(b)是本发明实施例提供的语法依存树示例的两种表示方式；

图4是本发明实施例提供的语法树特征向量提取结构示意图；

图5是本发明实施例提供的预测层结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

如图1所示，本发明实施例提供了一种结合语法的文本语义相似度计算方法，包括：

S1：获取待计算语义相似度的两个句子。

S2：通过深度语义交互模型提取两个句子的语义特征向量。

具体地，因为语法依存树节点是词而不是BERT_base模型所用的字粒度，深度语义交互模型应该应用使用全词mask训练的BERT衍生模型，如Chinese-BERT-wwm等。

如图2所示，对于输入BERT衍生模型中的句子对A＝{A1,A2,…,An}和B＝{B1,B2,…,Bm}，首先通过将其串联为一个序列x，然后将其输入嵌入层获取其结构化嵌入表示：

H⁽⁰⁾＝Embedding(x)

H⁽ⁱ⁾＝Transformer(H^(i-1))

其中，L代表BERT衍生模型的层数，N为最大序列长度，d为隐藏层的维度。H表示隐藏层计算结果，H⁽⁰⁾就是第0层的结果，第0层就是初始化后的矩阵向量，之后每一层都是通过前一层的输出作为输入，故第一层初始化的输入是句子，之后的每一层输入是上一层的输出。在语义特征向量中，算法取其最后一层的输出作为最终的语义特征表示。Embedding的计算方式与词嵌入模型计算方式一致，Transformer计算方式与谷歌提出的Transformer框架的计算方式一致，两者均为现有技术，在此不进行赘述。

S3：分别构建两个句子的语法依存树，并进行结构化嵌入，分别获得两个句子的语法树特征向量。

具体地，构建两个句子的语法依存树过程包括：

分别对两个句子进行语法分析；

对于每个句子而言，语法依存树定义了句子中表示依赖关系的有向的词汇之间的方式，树的连接方式代表了其语法上的定义，树的结点值为句子中的某一词汇。通过这样的方式，可以将句子中的语法结构转化为树形表示，通过节点之间的连接可以确定句子中不同的成分与成分之间的语法关系，如图3所示的例子中，以“红色轿车在角落快速调转了方向。”为例进行了两种方式的展示，可以看到根节点“调转”与其子节点“方向”之间的关系为dobj，代表直接宾语。

如图4所示，将两个句子的语法依存树进行结构化嵌入，分别获得两个句子的语法树特征向量，过程包括：

为了防止最终结果维度***，定义一个最长序列长度l；

将语法序列C_p中的所有元素输入词嵌入模型中进行计算获取其词嵌入；考虑维度对齐问题，如果语法序列C_p中元素长度不足l，词嵌入以零矩阵填充以达到最长序列长度；如果语法序列C_p中元素长度超过l，则截断超过长度的元素，仅保留前l个元素，此时新得到的语法序列定义为

这里的语法序列依旧是单个词的所有子节点那个词序列，以图3中的语法依存树为例，对于“调转”这个词而言，它的词序列C_p是[轿车，角落，快速，了，方向]，如果l指定为3，则需要舍弃掉后面两个词语，只保留前3个，词序列更新为[轿车,角落,快速]，同样的，如果序列长度小于3，则在计算的时候使用零矩阵填充。

分别对两个句子中每个句子中的所有词计算其

得到两个句子的语法序列

和

分别两个句子的语法序列输入一个双向LSTM神经网络中，该双向LSTM神经网络在t时刻的输出为：

其中，

表示t时刻双向LSTM神经网络的正向输出，

表示t时刻双向LSTM神经网络的反向输出，w_f和w_b代表正向LSTM与反向LSTM的隐藏层状态，b_t代表偏移量；神经网络的隐层状态根据以下公式更新：

其中i为语法序列中的第i个节点；

就是词汇p的序列中第i层的隐藏层状态。隐藏层状态都是一样的计算方式，只是计算顺序不同有了正向和反向。

为第i层词汇p的状态(即该时刻的输入)。

S4：将两个句子各自的语义特征向量与语法树特征向量进行拼接，分别得到两个句子的最终语义特征向量。

S5：基于两个句子的最终语义特征向量计算得到两个句子的语义相似度。具体包括：

如图5所示，预测层的计算过程包括：将两个句子的最终语义特征向量进行融合，输入一个带有三个隐藏层的多层感知机，隐藏层分别设置其隐层单元为256，64，16(隐层单元个数可以根据前方计算后的向量确定不同的值)，多层感知机每个隐藏层使用双曲正切函数tanh作为激活函数，多层感知机的计算公式为：

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

本发明可以计算句子对中的语义相似度，相比于传统的字面相似度检测方式，本发明通过深度神经网络挖掘出了句子文本中所蕴涵的深层语义信息，可以在字面相似度很高但是语义不一样的情况下检测出比字面相似度方法更为准确的结果。同时，算法通过引入语法依存树的方式将句子的语法结构也作为语义信息考虑到了计算过程中，将语法信息作为特征，增强了句子的语义信息。本发明可以作为查重***的重要辅助功能，也可以作为一些分类与问答任务的主要计算方式。算法通过结合语法的语义计算模型，能够从多角度、多层次地提取文本的语义特征，主要通过使用Chinese-BERT-wwm等全词Mask训练的衍生模型克服原生BERT模型中文支持度不足的问题，使用多头注意力机制提取文本间的交互信息。同时引入了成熟的语法依存树表示方法，对句子的语法进行深入分析，从语法角度进行特征提取。对提取出来的语法树，通过进行词嵌入与相似性矩阵计算后输入一个双向LSTM网络中，通过LSTM网络捕获语法树中的信息，将这些信息整合成最终语义特征。这些措施可以更加有效的对句子的语义进行分析，帮助计算机更好的理解在一些语法变换下的相似句子。最终将这些语义特征输入一个带有多层感知机与全连接层的预测层中，将语义特征进行降维与交互，并最终使用sigmoid激活函数将相似度转换为一个范围在[0,1]之间的具体数值，使用该数值来衡量任意两个句子之间的语义层面的相似度，本算法通过这些方式克服了语义鸿沟的问题，提高了文本语义相似度计算的准确性。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。