CN115495550A

CN115495550A - 一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法

Info

Publication number: CN115495550A
Application number: CN202211075127.0A
Authority: CN
Inventors: 汪忠国; 张宝
Original assignee: Anhui Institute of Information Engineering
Current assignee: Anhui Institute of Information Engineering
Priority date: 2022-09-03
Filing date: 2022-09-03
Publication date: 2022-12-20

Abstract

本发明涉及信息检索与数据挖掘技术领域，具体为一种基于多头注意力孪生Bi‑LSTM网络的中文语义相似度计算方法，基于中文语义相似度语料库LCQMC构建的中文文本相似度计算模型MAS‑Bi‑LSTM(Multi‑attentionSiameseBi‑LSTM)模型，所述MAS‑Bi‑LSTM模型包括输入层、嵌入层、孪生网络层以及相似度计算层四者构成，基于孪生网络的中文语义相似度计算方法。本发明提出一种基于多头注意力机制孪生Bi‑LSTM的中文文本相似度计算模型MAS‑Bi‑LSTM(Multi‑attentionSiameseBi‑LSTM)，利用对称孪生Bi‑LSTM结构计算每个文本的语义特征，同时通过多头注意力机制对语义特征进行重新赋权，有效捕获句子中词语之间的语义信息，并结合多头注意力机制全局化特征加权弥补双向RNN全局化处理能力的不足。

Description

一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法

技术领域

本发明涉及信息检索与数据挖掘技术领域，尤其是涉及一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法。

背景技术

主流的文本相似度计算方法主要如下几类：文本匹配相似度计算方法、文本语义相似度计算方法、基于深度神经网络的相似度计算方法等；

表面文本相似度计算方法：文本匹配相似度计算方法是比较朴素的计算方法，其方法就是简单的对文本中的词语序列或者字符序列进行比较，以文本匹配程度或者距离作为相似度判断的标准。文本匹配相似度计算方法原理简单、可解释性强，比如基于字符匹配的最大公共子序列(Longest Common Sequence，LCS)计算方法，通过比较两个文本中字符的最大公共子串的长度来计算文本的相似度；基于向量空间模型的计算方法，首先将文本通独热编码(One-Hot)编码或TF-IDF算法转化成为文本向量，然后根据曼哈顿空间距离(Manhattan Distance)、余弦相似度(Cosine Similarity)、欧几里得距离(EuclideanDistance)等距离公式计算出的文本向量之间的距离来判断两个文本之间相似的程度；

语义相似度计算：文本匹配相似度计算仅考虑了字符序列表层匹配的情况，完全忽略了具体语境中的单词之间的区别。因此，研究人员提出了考虑具体语境的语义相似度计算方法，基于语料库训练的文本相似度计算成为主流方法。文本经大规模语料库训练得到的语义向量，通过计算语义向量的距离来判断文本之间的相似程度。常用的的文本语义相似度计算方法包括LSA(Latent Semantic Analysis)、LDA(Latent DirichletAllocation)。语义相似度计算和传统的向量空间模型都使用向量来表示词和文档，并通过向量间的关系来判断文本之间的关系，但语义相似度计算通过向量空间映射降低语义维度，降低了模型计算的复杂度，降维过程中消除了部分“噪音”从而也提高了文本检索的精确度；

基于神经网络的文本相似度计算：深度神经网络通过对文本进行字、词等细颗粒度的分析得到低维向量。常用的训练模型是Mikolov等人提出的Word2vec模型，Word2vec有通过输入词语预测上下文的Skip-gram和通过上下文来预测词语本身的CBOW两种训练模式。Word2vec模型的CBOW训练模式利用输入词语上下文信息预测词语，并将其转化为一个低维空间向量，语义越相近的词在向量空间中越接近，GloVe，FastText等也是比较流行的词向量生成工具。CNN、LSTM、Bi-LSTM等深度神经网络模型近年来在中文文本相似度计算中逐渐得到广泛应用，并取得了良好效果。

孪生网络起初主要用于人脸识别、自动驾驶等模式识别领域。王玲等提出一种融合注意力机制的孪生网络目标跟踪算法，更好的应对运动模糊、目标漂移和背景多变等问题，取得了更高的准确率和成功率。近年来孪生深度学习神经网络逐渐被用于文本相似度计算中，并且得到了更好的效果。郭浩等提出孪生CNN叠加LSTM并结合Attention机制加权获取文本语义表征向量，最后通过余弦相似度计算文本相似程度。赵承鼎等利用非对称孪生Bi-LSTM网络来对新闻和案件的相关性进行分析。Bao等利用Attention机制的孪生LSTM网络分别对藏语、汉语、英文的相似度进行比例研究，通过对比发现使用Attention机制能够有效提升孪生LSTM网络的性能。

基于孪生网络模型的文本相似度研究语种主要集中在英文，高质量的中文文本相似度语料库缺乏导致基于中文文本相似度的研究相对较少且可参考价值低。

为此，提出一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法。

发明内容

本发明的目的在于提供一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法，根据哈尔滨工业大学2018年在ACL上发表了高质量的中文语义相似度语料库LCQMC。基于该语料库，本发明提出一种基于多头注意力机制孪生Bi-LSTM的中文文本相似度计算模型MAS-Bi-LSTM(Multi-attention Siamese Bi-LSTM)，利用对称孪生Bi-LSTM结构计算每个文本的语义特征，同时通过多头注意力机制对语义特征进行重新赋权，有效捕获句子中词语之间的语义信息，并结合多头注意力机制全局化特征加权弥补双向RNN全局化处理能力的不足，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法，基于中文语义相似度语料库LCQMC构建的中文文本相似度计算模型MAS-Bi-LSTM(Multi-attention Siamese Bi-LSTM)模型，所述MAS-Bi-LSTM模型包括输入层、嵌入层、孪生网络层以及相似度计算层四者构成，基于孪生网络的中文语义相似度计算方法，包括如下步骤：

S1：首先，根据词嵌入模型理论，利用Word2Vec技术生成的预训练词向量得到各中文分词的词向量；

S2：其次，在通用语料库LCQMC上基于多头注意力机制的孪生Bi-LSTM网络模型输出中文语句的加权词向量组合；

S3：最后，通过曼哈顿空间距离算法，输出各组语义序列的相似度值。

优选的，所述输入层主要是对输入文本text a和text b进行预处理，并将预处理结果作为嵌入层的输入。以对text a的处理为例(对text b的处理类似)，输入层首先使用Jieba词库进行分词处理，然后使用停用词库进行停用词去除，之后统计分词后的文本生成文档词典，填充序列使输入文本序列的长度保持一致。

优选的，所述文本序列最大长度L＝200，大于L的进行截断，小于L的用0值进行填充。经过预处理后，text a可表示为S_a＝{C₁,C₂,...,C_L}，其中L为文本序列最大长度，C_i为每个分词结果。

优选的，所述嵌入层使用Word2Vec中的Skip-Gram模型，将输入层生成的S_a，S_b中的每个C_i转化成词向量E_i，并作为下一层孪生Bi-LSTM网络的输入。Skip-Gram模型通过目标词汇来预测源词汇，模型中隐藏层的神经单元数量，代表着每一个词用向量表示的维度大小，输出层使用sotfmax函数得到每一个预测结果的概率，模型选用交叉熵损失函数进行梯度下降算法优化，并得到权重矩阵W。每个词向量E_i通过下述公式进行计算：

E_i＝x_iW_V×N

其中，x_i为单词C_i基于词表索引的one-hot编码；V为one-hot编码的长度，即词表索引的长度；N为词向量的维度，本模型使用的词向量维度为300。

优选的，孪生Bi-LSTM网络输出的向量表示为H＝[h₁，h₂，h₃，...，h_n]，多头注意力机制把神经网络输出的向量表达经过系列运算得到加权求和的结果，权重的大小表示该特征的重要程度。注意力机制分为三步。

优选的，所述注意力机制三步如下：

第一步：Bi-LSTM输出的h_i传输到一个全连接层，得到的注意力权值μ_i：

μ_i＝tanh(W_hh_i)

其中，W_h是注意力模型计算权重的系数，tanh是激活函数。

第二步：将权值进行归一化，得到直接可用的权重α_i，具体公式如下：

其中，λ为系数值，计算得到的α值代表句子中每个词向量的重要程度。

第三步：将权重和value进行加权求和，就得到经Attention机制加权后的语义向量Si：

S_i＝∑_iα_ih_i

其中，α_i为第二步计算的每个词向量的权重值。

多头注意力机制是上述注意力机制重复多次，也就是所谓的多头，每个头之间参数不共享，然后对多个S进行拼接，最后通过一次线型变换得到多头注意力机制的最后输出，也就是输入层每句话的语义序列向量表示。

优选的，所述多头注意力机制层的输出为语义序列向量S_a，S_b，相似度计算层主要计算S_a和S_b在语义空间中的相似程度。本发明通过曼哈顿空间距离作为评价标准，计算两个语句的相似度值，范围在[0,1]之间。

similarity＝exp(-|S_a-S_b|)

输出结果大于0.5的认为相似，标记为1；小于等于0.5的认为不相似，标记为0°

优选的，验证MAS-Bi-LSTM模型的有效性，实验选取CNN和RNN常用深度学习模型做对比，分别为TextCNN、GRU、Bi-GRU、LSTM以及添加多头注意力机制的TextCNN(MA)、GRU(MA)、Bi-GRU(MA)五种模型。

优选的，所述词嵌入层选择基于中文***的预训练词向量，多头注意力机制的头数选择4，距离公式选择曼哈顿空间距离公式。

与现有技术相比，本发明的有益效果是：

本发明提出一种基于多头注意力机制孪生Bi-LSTM的中文文本相似度计算模型MAS-Bi-LSTM(Multi-attention Siamese Bi-LSTM)，利用对称孪生Bi-LSTM结构计算每个文本的语义特征，同时通过多头注意力机制对语义特征进行重新赋权，有效捕获句子中词语之间的语义信息，并结合多头注意力机制全局化特征加权弥补双向RNN全局化处理能力的不足。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的MAS-Bi-LSTM模型图；

图2为本发明的LSTM网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1至图2，本发明提供一种技术方案：

一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法，基于哈尔滨工业大学2018年在ACL上发表了高质量的中文语义相似度语料库LCQMC。基于该语料库构建的中文文本相似度计算模型MAS-Bi-LSTM(Multi-attention Siamese Bi-LSTM)模型，所述MAS-Bi-LSTM模型包括输入层、嵌入层、孪生网络层以及相似度计算层四者构成(如图1所示)，基于孪生网络的中文语义相似度计算方法，包括如下步骤：

S3：最后，通过曼哈顿空间距离算法，输出各组语义序列的相似度值。本发明提出的方法取得了0.8076的F1值，优于对比实验中的经典的深度学习模型，后续会利用该模型针对不同的语料库做训练，加强模型针对不同场景的适应性。

MAS-Bi-LSTM模型的任务是判断输入两个语句的语义是否相似，模型结构如图1所示。由图1可知，MAS-Bi-LSTM模型首先对要比较的两个问题，即text a和text b经过中文分词和停用词处理，然后在嵌入层通过Word2Vec预训练的词向量转化为句子向量，句子向量经过共用权重系数的对称孪生Bi-LSTM网络并应用多头注意力机制后生成语义表示向量S_a和S_b，最后用曼哈顿空间距离算法计算得到S_a和S_b的相似度。

输入层主要是对输入文本text a和text b进行预处理，并将预处理结果作为嵌入层的输入。以对text a的处理为例(对text b的处理类似)，输入层首先使用Jieba词库进行分词处理，然后使用停用词库进行停用词去除，之后统计分词后的文本生成文档词典，填充序列使输入文本序列的长度保持一致。

本发明中使用的文本序列最大长度L＝200，大于L的进行截断，小于L的用0值进行填充。经过预处理后，text a可表示为S_a＝{C₁,C₂,...,C_L}，其中L为文本序列最大长度，Ci为每个分词结果。

嵌入层使用Word2Vec中的Skip-Gram模型，将输入层生成的S_a，S_b中的每个C_i转化成词向量E_i，并作为下一层孪生Bi-LSTM网络的输入。Skip-Gram模型通过目标词汇来预测源词汇，模型中隐藏层的神经单元数量，代表着每一个词用向量表示的维度大小，输出层使用sotfmax函数得到每一个预测结果的概率，模型选用交叉熵损失函数进行梯度下降算法优化，并得到权重矩阵W。每个词向量E_i通过下述公式进行计算：

E_i＝x_iW_V×N

其中，x_i为单词Ci基于词表索引的one-hot编码；V为one-hot编码的长度，即词表索引的长度；N为词向量的维度，本模型使用的词向量维度为300。

孪生神经网络概念的提出首先是在图像识别领域，用来判断两个图片的相似度。孪生网络同样可以衡量两个文本的相似度，处理文本的神经网络一般可采用RNN(如LSTM、GRU等)和CNN等深度学习模型。

本发明采用的LSTM模型最早由Hochreiter和Schmidhuber提出，主要用于解决循环神经网络(Recurrent Neural Network,RNN)中的模型梯度消失或梯度***问题，通过在RNN网络中加入多个门控有效解决RNN中长距离记忆问题。LSTM模型的存储单元包括遗忘门、输入门和输出门等三个门控***，LSTM就是通过这三个门控***控制信息的传递和选择，如图2所示。

t时刻LSTM更新存储单元的公式如下所示：

i_t＝σ(W_ih_i-1+U_ix_t+b_i)

f_t＝σ(W_fh_t-1+U_fx_t+b_f)

o_t＝σ(W_oh_t-1+U_ox_t+b_o)

h_t＝o_ttanh(c_t)

其中，x_t是经嵌入层输入的向量，h_t是t时刻的隐藏状态；b_i，b_f，b_c，b_o是偏置向量值；W_i，W_f，W_c，W_o，U_i，U_f，U_c，U_o分别为各门控单元的权重矩阵；σ是Sigmoid函数。

Bi-LSTM可以更好的捕捉双向的语义依赖。Bi-LSTM从两个方向上做LSTM操作，把正向计算得到的h_t与反向得到的h'_t进行拼接，得出输出结果S_i，S_i的公式如下：

S_i＝Concat(W_ah_t,W_bh'_t)

注意力机制的神经网络在很多NLP任务中取的巨大的成功。注意力机制借鉴人类视觉的选择性机制，人类视觉对于快速扫描全局图像中会重点关注部分目标区域，利用有限的注意力筛选出有价值信息的手段。

孪生Bi-LSTM网络输出的向量表示为H＝[h1，h2，h3，...，hn]，多头注意力机制把神经网络输出的向量表达经过系列运算得到加权求和的结果，权重的大小表示该特征的重要程度。注意力机制的三步为：

第一步：Bi-LSTM输出的hi传输到一个全连接层，得到的注意力权值μ_i：

μ_i＝tanh(W_hh_i)

其中，W_h是注意力模型计算权重的系数，tanh是激活函数。

S_i＝∑_iα_ih_i

其中，α_i为第二步计算的每个词向量的权重值。

多头注意力机制层的输出为语义序列向量S_a，S_b，相似度计算层主要计算S_a和S_b在语义空间中的相似程度。本发明通过曼哈顿空间距离作为评价标准，计算两个语句的相似度值，范围在[0,1]之间。

similarity＝exp(-|S_a-S_b|)

输出结果大于0.5的认为相似，标记为1；小于等于0.5的认为不相似，标记为0。

验证MAS-Bi-LSTM模型的有效性，实验选取了CNN和RNN常用深度学习模型做对比，分别为TextCNN、GRU、Bi-GRU、LSTM以及添加多头注意力机制的TextCNN(MA)、GRU(MA)、Bi-GRU(MA)这五种模型。其中词嵌入层选择基于中文***的预训练词向量，多头注意力机制的头数选择4，距离公式选择曼哈顿空间距离公式，实验结果如表1所示。

表1与其他模型对比

由表1可知，双向RNN网络Bi-GRU、Bi-LSTM比单向RNN网络GRU、LSTM效果好，Precision、Recall和F1值分别提升1.7％、1.51％和1.61％。双向RNN结构从正反两个方向捕捉到句子中词语的依赖关系，能够更好地挖掘文本内在语义信息。卷积神经网络CNN在捕捉文本时序信息，特别是长序列语言信息能力的不足，在实验中表现要明显差于循环神经网络。GRU简化了LSTM的门控机制，虽然在试验中提升了训练的速度，但是也牺牲了模型的性能。在引入自注意力机制的特征加权处理后，CNN和RNN神经网络的Precision、Recall和F1值均有明显的提升，平均值提升5.53％、12.27％和8.64％。

本发明提出的MA-BLSTM在对比模型中表现最佳，模型中的孪生Bi-LSTM具备双向捕捉时序信息的记忆功能以及长序列语义信息的处理能力，同时多头注意力机制全局化特征加权弥补Bi-LSTM全局化处理能力的不足，Precision、Recall和F1值都取得了对比模型中的最高值0.7499、0.8749和0.8076。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法，其特征在于，基于中文语义相似度语料库LCQMC构建的中文文本相似度计算模型MAS-Bi-LSTM(Multi-attention Siamese Bi-LSTM)模型，所述MAS-Bi-LSTM模型包括输入层、嵌入层、孪生网络层以及相似度计算层四者构成，基于孪生网络的中文语义相似度计算方法，包括如下步骤：

2.根据权利要求1所述的一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法，其特征在于：所述输入层主要是对输入文本text a和text b进行预处理，并将预处理结果作为嵌入层的输入。以对text a的处理为例(对text b的处理类似)，输入层首先使用Jieba词库进行分词处理，然后使用停用词库进行停用词去除，之后统计分词后的文本生成文档词典，填充序列使输入文本序列的长度保持一致。

3.根据权利要求1所述的一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法，其特征在于：所述文本序列最大长度L＝200，大于L的进行截断，小于L的用0值进行填充。经过预处理后，text a可表示为S_a＝{C₁,C₂,...,C_L}，其中L为文本序列最大长度，C_i为每个分词结果。

4.根据权利要求3所述的一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法，其特征在于：所述嵌入层使用Word2Vec中的Skip-Gram模型，将输入层生成的S_a，S_b中的每个C_i转化成词向量E_i，并作为下一层孪生Bi-LSTM网络的输入。Skip-Gram模型通过目标词汇来预测源词汇，模型中隐藏层的神经单元数量，代表着每一个词用向量表示的维度大小，输出层使用sotfmax函数得到每一个预测结果的概率，模型选用交叉熵损失函数进行梯度下降算法优化，并得到权重矩阵W。每个词向量E_i通过下述公式进行计算：

E_i＝x_iW_V×N

5.根据权利要求1所述的一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法，其特征在于：孪生Bi-LSTM网络输出的向量表示为H＝[h₁，h₂，h₃，...，h_n]，多头注意力机制把神经网络输出的向量表达经过系列运算得到加权求和的结果，权重的大小表示该特征的重要程度。注意力机制分为三步。

6.根据权利要求5所述的一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法，其特征在于：所述注意力机制三步如下：

μ_i＝tanh(W_hh_i)

其中，W_h是注意力模型计算权重的系数，tanh是激活函数。

S_i＝∑_iα_ih_i

其中，α_i为第二步计算的每个词向量的权重值。

7.根据权利要求1所述的一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法，其特征在于：所述多头注意力机制层的输出为语义序列向量S_a，S_b，相似度计算层主要计算S_a和S_b在语义空间中的相似程度。本发明通过曼哈顿空间距离作为评价标准，计算两个语句的相似度值，范围在[0,1]之间。

similarity＝exp(-|S_a-S_b|)

8.根据权利要求1所述的一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法，其特征在于：验证MAS-Bi-LSTM模型的有效性，实验选取CNN和RNN常用深度学习模型做对比，分别为TextCNN、GRU、Bi-GRU、LSTM以及添加多头注意力机制的TextCNN(MA)、GRU(MA)、Bi-GRU(MA)五种模型。

9.根据权利要求8所述的一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法，其特征在于：所述词嵌入层选择基于中文***的预训练词向量，多头注意力机制的头数选择4，距离公式选择曼哈顿空间距离公式。