CN110765755A

CN110765755A - 一种基于双重选择门的语义相似度特征提取方法

Info

Publication number: CN110765755A
Application number: CN201911032492.1A
Authority: CN
Inventors: 蔡晓东; 秦菲
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-07

Abstract

本发明公开了一种基于双重选择门的语义相似度特征提取方法，涉及自然语言处理领域，技术方案为，首先对输入句子对进行分词并且进行向量化表示得到词向量，将得到的词向量序列输入双向长短时记忆网络中，得到两条句子的上下文信息向量，其次通过双重选择门分别获得句子对的核心特征向量，然后将向量输入多角度语义特征匹配网络，得到句子对的特征匹配向量，最后，将匹配向量分别通过双向长短时记忆网络聚合层合并两个语义特征匹配向量，并进行句子对的相似性预测。本方法有效缓解了信息冗余导致匹配效率低的问题，同时又避免了人工提取核心信息的成本问题。

Description

一种基于双重选择门的语义相似度特征提取方法

技术领域

本发明涉及自然语言处理领域，特别涉及一种基于双重选择门的语义相似度特征提取方法。

背景技术

当今世界充斥着海量的信息，这些信息大部分都是以文本的形式保存起来的，而人工智能一个重要的课题就是将这些文本信息整理后“表达”出来，使计算机能像人类一样“理解”这些信息。由于语言中存在很多一个词语有多种意思，相同的概念可以采用不同的方式进行表述等较多不确定因素的存在，传统基于字符串匹配的文本相似度计算方法在搜索引擎以及问答***中等，已经难以满足用户需求，当用户输入关键字寻找与关键字匹配的信息时，搜索反馈回来的内容可能对应着不符合的内容，有可能只是少数内容符合搜索的关键字，这给用户带来了极度的不变，所以更深层次的语义理解计算文本相似的成为当前自然语言研究的热点。

现有技术中句子语义相似度匹配方法很多，最开始基本上都集中在字符串的匹配上，其基本的流程通常分为两步，首先将两个要判断相似度的句子输入到循环网络中映射成向量表示，然后将所得到的两个句子向量通过余弦距离判断两个句子的相似程度。虽然采用传统的字符串法来判断句子对的相似性在一定程度上帮助人们在搜寻相关问题时过滤掉了一些无关信息，但搜索结果在质量上还是不能令人满意。因为通过字符串判断句子之间的相似程度仅仅是在字词层面计算词之间的距离，没有上下文语义信息，导致信息错误匹配、有歧义，最终用户不能快速找到关键字的相关信息。

因此，有必要发明一种新的语义相似度特征提取方法。

发明内容

本发明的目的是提供一种基于双重选择门的语义相似度特征提取方法，其能够自动判定两条句子的语义相似度，并且通过双重自动选择核心信息有效减少了句子冗余信息，提高了句子相似度的准确率和判定效率。

其技术方案为：

S100、将待处理的句子对P和Q的进行分词处理，对经过分词处理后的词语进行向量化表示得到词向量；

S200、将步骤S100中得到的句子对P和Q的全部词向量按顺序输入第一循环神经网络，得到上下文信息向量，其中，句子的最后一个上下文信息向量代表该句子的句向量；

S300、将句子对P和Q的句向量输入到一级选择门中，获取核心信息特征；

S400、将步骤S300中得到的核心信息输入到二级选择门中，再次获取核心信息特征；

S500、将步骤S400获取到的核心信息输入到多角度语义匹配网络，其中，多角度语义匹配网络包含全匹配、最大池化匹配、注意力匹配和最大注意力匹配四种方式，得到句子对的特征匹配向量；

S600、将步骤S500得到的匹配向量通过第二神经网络，使特征匹配向量融合成一个固定长度的向量，并输入到预测层计算句子对的相似度概率分布。

优选为，所述第一循环神经网络，用于生成上下文信息的状态向量。

优选为，所述第一循环神经网络第一层为单项长短时记忆网络，第二层为双向长短时记忆网络，每个层级结构均包括多个相连的LSTM细胞模块。

优选为，所述第一循环神经网络包括两个层级结构；

所述第一循环神经网络的第一层用于生成字词级别的向量；

所述第一循环神经网络的第二层用于生成上下文信息向量。

优选为，所述一级选择门和二级选择门分别包括多个一级选择门单元和二级选择门单元；

所述一级选择门和二级选择门的结构不同，参数不同。

优选为，所述步骤S200中，将步骤S100得到的句子对的全部词向量按顺序输入第一循环网络，从而得到输入每个词后的句子状态向量，具体为：

将第i个所述词向量和第i-1时刻的输出词向量输入到第i个所述LSTM细胞模块中，经过第i个所述LSTM细胞模块处理得到第i个词向量后句子的状态向量。

优选为，所述步骤S300中将句子对的句向量输入到一级选择门中，获取核心信息特征包括：

将句子P的每个时刻所述上下文信息向量和句子Q的第i个所述句向量输入到所述一级选择门单元中，经过第i个所述一级选择门单元处理得到核心信息。

优选为，步骤S400中将步骤S300中得到的核心信息输入到二级选择门中，再次获取核心信息特征包括：

将所述第i个一级选择门单元处理得到的核心信息输入到第i个二级选择门单元中，经过第i个二级选择门单元处理得到核心信息特征。

优选为，所述步骤S500中，将步骤S400获取到的核心信息输入到多角度语义匹配网络中，得到特征匹配向量包括：

所述全匹配将句子P每个时刻所述上下文信息向量与句子Q所述句向量进行余弦相似计算，得到特征匹配向量；

所述最大池化匹配将句子P每个时刻所述上下文信息向量与句子Q每个时刻所述上下文信息向量进行余弦相似计算，选取最大值作为特征匹配向量；

所述注意力匹配将句子P第i时刻的所述上下文信息向量与句子Q第i时刻所述上下文信息向量分别进行余弦计算，得到句子P的i个余弦值，将i个余弦值加权作为注意力权重并与句子Q每个时刻所述上下文信息相乘，得到的结果再与句子P每个时刻所述的上下文信息向量进行余弦计算，得到特征匹配向量；

所述最大注意力匹配将句子P第i时刻的所述上下文信息向量与句子Q第i时刻所述的上下文信息向量分别进行余弦计算，得到句子P的i个余弦值，从i个余弦值中选取最大的值作为注意力权重，并与句子Q的所述上下文信息相乘，得到的结果再与句子P每个时刻所述的上下文信息向量进行余弦计算，得到特征匹配向量。

优选为，所述第二神经网络包括两个双向长短时记忆网络，用于处理句子对的特征匹配向量聚合成一个固定长度的向量。

优选为，所述步骤S600将S500步骤得到的匹配向量通过第二神经网络，使特征匹配向量融合成一个固定长度的向量，并输入到预测层计算句子对的相似度概率分布包括：

将句子P经过四个匹配得到的四个特征匹配向量，经过所述第二循环神经网络聚合成一个固定长度的特征匹配向量；

将句子Q也经过四个匹配得到的四个特征匹配向量，经过所述的双向长短时记忆网络聚合成一个固定长度的特征匹配向量；

利用句子P和句子Q两个特征匹配向量输入到预测层，得到句子对相似度。

优选为，步骤S100中采用Word2Vec对所述经过Jieba分词处理后的词语进行向量化表示。Word2Vec是一种预测模型，可以高效地学习嵌入字，Word2Vec的基本思想是把自然语言中的每一个词，表示成一个统一意义统一维度的短向量。

本发明实施例提供的技术方案带来的有益效果是：

1、本发明的基于双重选择门的语义相似度特征提取方法，无需依赖人工去除冗余信息，自动获取句子中的核心信息，通过语义相似度模型能够自动判定两条句子的语义相似性，并且用该模型判定的句子相似性准确率和效率更高，能够帮助用户在问答或者搜索***中找到更匹配的结果。

2、本发明的基于双重选择门的语义相似度特征提取方法，利用双向长短时记忆网络对句子进行上下文信息向量化表示。该网络拥有细胞状态能够捕获文本的长距离依赖关系，可以记住长期状态，实现信息的更新、遗忘、过滤，更好表达上下文关系，并且可以解决网络梯度消失和***问题。传统的RNN网络将过去的输出和当前的输入连接在一起通过激活函数控制两者输出，只能考虑最近时刻的状态。

3、本发明的基于双重选择门的语义相似度特征提取方法，利用两个选择门自动获取句子中的核心语义信息，从而避免了冗余信息对句子语义相似度判定的影响，并且提高了匹配效率。

4、本发明的基于双重选择门的语义相似度特征提取方法，利用多角度语义匹配网络，对两条句子进行全匹配、最大池化匹配、注意力匹配和最大注意力匹配四种匹配方式，四种匹配方式充分利用上下文信息向量进行多角度更细致的匹配，有效避免了在传统方法中只通过两条句子字词之间的余弦距离判定相似度准确率低的问题，并采用双向长短时记忆网络将匹配向量融合城固定长度向量，有效的控制了匹配向量的维度，有利于预测层计算句子对的相似度。

5、本发明的基于双重选择门的语义相似度特征提取方法，能够有效提高句子语义相似度的判定准确率和效率，适用于中文和英文句子对语料。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例的双重选择门模块的结构图。

图3为本发明实施例的多角度语义匹配网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，在不冲突的情况下，本发明创造中的实施例及实施例中的特征可以相互组合。

实施例1

参见图1，本发明提供一种基于双重选择门的语义相似度特征提取方法，包括：

S100、将待处理的句子对P和Q的进行分词处理，对经过分词处理后的词语进行向量化表示得到词向量。

步骤S100中的分词处理是将句子中的词语切分成合理的、符合语境意义的词语序列的过程，它是自然语言理解和文本信息处理的关键技术和难点之一，也是语义相似度模型中的一个重要处理环节。中文的词语切分问题比较复杂，其原因在于词语之间没有明显的标记，词语的使用灵活、变化多样、语义丰富，容易产生歧义。据研究，基于统计的中文文本分词的主要难点在于歧义消解、固有名词和新词发现，本发明采用Jieba对中文文本进行分词，采用Nltk对英文文本进行分词，从而提高分词正确率。

对单词进行向量化表示的模型有One-hot模型和Distributed模型。其中，One-hot模型简单，但是维度无法控制，并且无法很好的表示词与词之间的关系，因此，本方法采用Distributed模型，具体采用Word2Vec对单词进行向量化表示。

其中，第一循环神经网络，用于生成上下文信息的状态向量；第一循环神经网络包括两个层级结构，第一层为单项长短时记忆网络，用于生成字词级别的向量；第二层为双向长短时记忆网络，用于生成上下文信息向量；每个层级结构均包括多个相连的LSTM细胞模块；处于不同层级结构的模块参数不同，以便生成单词级别和上下文信息向量。

将步骤S100得到的句子对的全部词向量按顺序输入第一循环网络，从而得到输入每个词后的句子状态向量，具体为：

将第i个词向量和第i-1时刻的输出词向量输入到第i个LSTM细胞模块中，经过第i个LSTM细胞模块处理得到第i个词向量后句子的状态向量。

具体为，将句子P的每个时刻上下文信息向量和句子Q的第i个句向量输入到一级选择门单元中，经过第i个一级选择门单元处理得到核心信息。

S400、将步骤S300中得到的核心信息输入到二级选择门中，再次获取核心信息特征；具体为，将第i个一级选择门单元处理得到的核心信息输入到第i个二级选择门单元中，经过第i个二级选择门单元处理得到核心信息特征。

一级选择门和二级选择门分别包括多个一级选择门单元和二级选择门单元；

一级选择门和二级选择门的结构不同，参数不同。

S500、将步骤S400获取到的核心信息输入到多角度语义匹配网络，其中，多角度语义匹配网络包含全匹配、最大池化匹配、注意力匹配和最大注意力匹配四种方式，得到句子对的特征匹配向量；具体为，

全匹配将句子P每个时刻上下文信息向量与句子Q句向量进行余弦相似计算，得到特征匹配向量；

最大池化匹配将句子P每个时刻上下文信息向量与句子Q每个时刻上下文信息向量进行余弦相似计算，选取最大值作为特征匹配向量；

注意力匹配将句子P第i时刻的上下文信息向量与句子Q第i时刻上下文信息向量分别进行余弦计算，得到句子P的i个余弦值，将i个余弦值加权作为注意力权重并与句子Q每个时刻上下文信息相乘，得到的结果再与句子P每个时刻的上下文信息向量进行余弦计算，得到特征匹配向量；

最大注意力匹配将句子P第i时刻的上下文信息向量与句子Q第i时刻的上下文信息向量分别进行余弦计算，得到句子P的i个余弦值，从i个余弦值中选取最大的值作为注意力权重，并与句子Q的上下文信息相乘，得到的结果再与句子P每个时刻的上下文信息向量进行余弦计算，得到特征匹配向量。

其中，第二神经网络包括两个双向长短时记忆网络，用于处理句子对的特征匹配向量聚合成一个固定长度的向量。

S600、将步骤S500得到的匹配向量通过第二神经网络，使特征匹配向量融合成一个固定长度的向量，并输入到预测层计算句子对的相似度概率分布，具体为，

将句子P经过四个匹配得到的四个特征匹配向量，经过第二循环神经网络聚合成一个固定长度的特征匹配向量；

将句子Q也经过四个匹配得到的四个特征匹配向量，经过的双向长短时记忆网络聚合成一个固定长度的特征匹配向量；

步骤S100中采用Word2Vec对经过Jieba分词处理后的词语进行向量化表示。

实施例2

在实施例1的基础上，第一循环神经网络由一层单向LSTM网络构成和一层双向LSTM网络构成，每个层级包括多个相连的LSTM细胞模块，根据LSTM细胞模块中的输入门、遗忘门、更新门和过滤输出门对当前输入信息和前一时刻输出信息进行处理。第一循环神经网络的第一层包括多个相连的单向LSTM细胞模块，用于得到每个词的状态向量。第一循环神经网络的第二层包括多个相连的双向LSTM细胞模块，用于的到句子上下文信息向量。

在本方法中，首先通过第一循环神经网络对句子的词语和上下文信息进行建模，得到句子每个词对应时刻的状态向量和每个时刻句子的上下文信息向量。其中，如图2所示，步骤S200中第一循环神经网络中采用长短时记忆网络(Long Short Term MemoryNetwork，LSTM)该网络的计算公式如下：

f_t＝σ(W_fw_t+U_fh_t-1+b_f)；

i_t＝σ(W_iw_t+U_ih_t-1+b_i)；

o_t＝σ(W_ow_t+U_oh_t-1+b_o)；

h_t＝o_ttanh(c_t)；

上述公式中f_t为遗忘门的输出；i_t为输入门的输出；o_t为输出门的输出；W_f、W_i、W_o、W_c、b_f、b_i、b_o、b_c、为遗忘门、输入门、输出门、选择门的权重矩阵和偏置向量；为新的记忆信息；c_t为更新的LSTM网络单元的记忆内容；σ为sigmoid函数；⊙为元素乘积；h_t-1为t-1时刻的隐藏层输出，W_t为t时刻的输入信息。

在本发明的方法中，由于通过循环神经网络对句子上下文进行建模，使得t时刻输入单词后对应句子的状态向量理论上包含了该时刻之前的所有单词的信息，也就是说，输入最后一个词后得到的句子状态向量h_n包含了整个句子的所有信息，因此，h_n代表了整个句子的状态向量，即句向量。

实施例3

在实施例1或2的基础上，双重选择门包括两个选择门结构，两个选择门结构不同，参数也不同。通过不同的选择门，有利于过滤掉句子中的冗余信息，更加准确地获取核心信息。第一层选择门计算公式如下：

s＝h_n；

sGate_i＝σ(W_sh_i+U_ss+b)；

上述公式中，使用句子上下文隐向量构造其句向量，取句子的隐藏层h_n为句向量s，sGate_i为门向量，W_s和U_s是权重矩阵，b是偏置向量，σ是sigmoid激活函数，

是元素之间的点乘。

第二层选择门通过计算t时刻的上下文向量，利用前一时刻句向量和选择门隐层状态h′_i计算选择门权重，最后将选择门权重归一化，计算公式如下：

e_i,j＝v_a ^Ttanh(W_as_t-1+U_ah'_i)；

上述公式中h′_i为上下文隐向量；

为权值矩阵，a_i,j为选择门选中归一化，

为第k个语句的核心特征向量，k＝1,2,...,L，L为文本中的语句数量。

参见图2，语句P为P＝[p₁,p₂,...,p_i,...,p_n]，语句Q表示为Q＝[q₁,q₂,...,q_i,...,q_m]表示输入的句子对序列，模型一次输入词语并经过步骤S200得到句子的每个时刻的上下文信息向量表示，P语句上下文的隐向量表达式矩阵

和Q语句的上下文向量表达式矩阵

经过步骤S300、S400中的两层选择门获取核心信息，语句P核心特征特征表达式同理可得，语句Q表达式

本发明的方法通过循环神经网络得到的句子上下文信息向量，从而使两条句子的上下文语义关联性更强，更好的判断两条句子的语义相似度。

如图3所示，第二循环神经网络为双向LSTM神经网络，包括多个双向LSTM细胞模块相连。为了使多角度匹配网络生成的特征匹配向量变成一个固定长度的向量输入到预测层，需要将匹配向量输入至双向LSTM网络中融合成一个固定长度的向量。

本发明为得到两条语句的相似判定，使用了第二循环神经网络，将句子P和句子Q的四个特征匹配向量输入第二循环神经网络中融合得到一个固定长度向量，句子Q和句子P的四个特征匹配向量用以上相同操作，分别得到两个固定长度的匹配向量，将向量输入预测层得到句子对相似度概率分布。

利用本发明的方法判定的句子语义相似度，除了利用句子间的上下文信息之外，还自动从句子中提取了核心信息特征作为匹配网络的输入，提高了匹配准确率，同时减少了匹配网络对于冗余信息的处理，提高了匹配效率。对于句子中一些意思相同表达形式不同的词语，也可以通过模型判定它们相似，比如“计算机”和“电脑”两个词汇，在对两个词进行相似度判定时，不仅仅考虑词之间的距离，而是利用词所在句子上下文信息来判定相似度。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双重选择门的语义相似度特征提取方法，其特征在于，包括如下步骤

2.根据权利要求1所述的基于双重选择门的语义相似度特征提取方法，其特征在于，所述第一循环神经网络，用于生成上下文信息的状态向量。

3.根据权利要求1所述的基于双重选择门的语义相似度特征提取方法，其特征在于，所述第一循环神经网络第一层为单项长短时记忆网络，第二层为双向长短时记忆网络，每个层级结构均包括多个相连的LSTM细胞模块。

4.根据权利要求3所述的基于双重选择门的语义相似度特征提取方法，其特征在于，

所述第一循环神经网络包括两个层级结构；

所述第一循环神经网络的第一层用于生成字词级别的向量；

所述第一循环神经网络的第二层用于生成上下文信息向量。

5.根据权利要求1所述的基于双重选择门的语义相似度特征提取方法，其特征在于，所述一级选择门和二级选择门分别包括多个一级选择门单元和二级选择门单元；

6.根据权利要求3所述的基于双重选择门的语义相似度特征提取方法，其特征在于，

所述步骤S200中，将步骤S100得到的句子对的全部词向量按顺序输入第一循环网络，从而得到输入每个词后的句子状态向量，具体为：

7.根据权利要求5所述的基于双重选择门的语义相似度特征提取方法，其特征在于，

所述步骤S300中将句子对的句向量输入到一级选择门中，获取核心信息特征包括：

8.根据权利要求1-7所述的基于双重选择门的语义相似度特征提取方法，其特征在于，

步骤S400中将步骤S300中得到的核心信息输入到二级选择门中，再次获取核心信息特征包括：

9.根据权利要求1-8所述的基于双重选择门的语义相似度特征提取方法，其特征在于，所述步骤S500中，将步骤S400获取到的核心信息输入到多角度语义匹配网络中，得到特征匹配向量包括：

10.根据权利要求1-9所述的基于双重选择门的语义相似度特征提取方法，其特征在于，所述步骤S600将S500步骤得到的匹配向量通过第二神经网络，使特征匹配向量融合成一个固定长度的向量，并输入到预测层计算句子对的相似度概率分布包括：