CN109543009B

CN109543009B - 文本相似度评估***及文本相似度评估方法

Info

Publication number: CN109543009B
Application number: CN201811210881.4A
Authority: CN
Inventors: 郑权; 徐泓洋; 张峰; 聂颖
Original assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Current assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2019-10-25
Anticipated expiration: 2038-10-17
Also published as: CN109543009A

Abstract

本发明公开一种文本相似度评估***及文本相似度的评估方法，所述评估***包括语料获取模块、分词模块、词向量训练模块、孪生biLSTM网络模块、注意力模块及相似概率计算模块。本发明提出了一种基于注意力机制的孪生网络结构，能够寻找决定两个文本相似程度的重要信息，相较于现有的技术，本发明提出的网络结构更加注重局部信息，排除全局信息的干扰，提升在不同场景中文本相似度计算的准确度。

Description

文本相似度评估***及文本相似度评估方法

技术领域

本发明涉及电子信息及数据处理技术领域，具体涉及一种文本相似度评估***及文本相似度评估方法。

背景技术

文本相似度计算是自然语言处理领域的一个重要的研究课题，根据计算方法的不同可分为基于字符的方法和基于语料库的方法。基于字符的方法主要从两个文本中相同的字符部分考虑相似度，它不考虑文本的语义信息，对无序的字符列表的判断是有效的，但是对文本的语言无效。基于语料库的方法则通过文本的上下文信息挖掘字符的语义信息来判断两个文本的相似度，这类研究主要的代表性工作有word embdding等直接计算向量相似度的方法和siamesenetwork等构建模型去判断的方法。基于语料库的方法是当前研究的主流方向。

基于语料库的方法近些年来发展很快，但是仍然面临着信息挖掘不充分的问题。在很多应用场景中会出现决定两个文本相似程度的关键信息只占文本成分的很小部分，现有的工作更多的是在挖掘全局的语义信息，通过全局的语义信息去判断文本的相似程度，显然并不精确。

发明内容

本发明的第一目的是提供一种文本相似度评估***，旨在在孪生biLSTM网络模块的基础上加入注意力机制，寻找决定两个文本相似程度的重要信息，提升在不同场景中文本相似度计算的准确度。本发明的第一目的由以下技术方案实现：

一种文本相似度评估***，其特征在于，包括：

语料获取模块，用于输入包含doc1_a和doc1_b两个文本的语料；

分词模块，用于将所述文本doc1_a和所述文本doc1_b分别分割成X个词的词序列；

词向量训练模块，用于对所述文本doc1_a和所述文本doc1_b分割的词序列进行向量化；

孪生biLSTM网络模块，包括biLSTMa网络模块和biLSTMb网络模块，分别用于输入所述文本doc1_a和所述文本doc1_b的每一个词的词向量，对每一个词的词向量进行词级编码，输出所述文本doc1_a和所述文本doc1_b的每个词的编码信息Hai和Hbi，i取值1至X；

注意力模块，分别为所述编码信息Hai和Hbi提供正则化的权重ai和正则化的权重bi，其中∑ai＝1，∑bi＝1，并通过公式sa＝∑ai*Hai计算得到所述文本doc1_a的注意力向量sa，通过公式sb＝∑bi*Hbi计算得到所述文本doc1_b的注意力向量sb；

相似概率计算模块，通过所述注意力向量sa和所述注意力向量sb计算所述文本doc1_a和所述文本doc1_b的相似概率p。

作为具体的技术方案，所述语料的形式为：doc1_a,doc1_b,sim；其中sim为标签，sim＝1表示所述文本doc1_a和文本doc1_b相似，sim＝0表示所述文本doc1_a和所述文本doc1_b不相似。

作为具体的技术方案，所述注意力模块包括：Tanh函数感知单元，通过公式uai＝Tanh(W*Hai+b)对所述编码信息Hai进行计算并输出一个权值uai，通过公式ubi＝Tanh(W*Hbi+b)对所述编码信息Hbi进行计算并输出一个权值ubi；softmax函数处理单元，通过公式ai＝softmax(uai*uw)计算得到所述文本doc1_a当前词的所述正则化的权重ai，通过公式bi＝softmax(ubi*uw)计算得到所述文本doc1_b当前词的所述正则化的权重bi；及加权求和单元，用于完成所述公式sa＝∑ai*Hai的计算及所述公式sb＝∑bi*Hbi的计算；其中W、uw、b为设定参数或经训练获得的参数。

作为具体的技术方案，所述参数W、uw、b为经训练获得的参数；所述文本相似度评估***还包括参数训练模块，所述参数训练模块通过设置损失函数并不断进行优化，直到所述损失函数收敛，从而确定所述参数W、uw、b。

作为具体的技术方案，所述损失函数采用如下的logloss函数或采用均方误差函数，logloss函数如下：

其中，N是测试样本总数，M是类的总数，y_l,j是二值变量，取值0或1，表示第l个样本是否属于第j类的标签，p_l,j为模型预测第l个样本属于第j类的标签为1的概率。

作为具体的技术方案，所述相似概率p的计算方法为：

p＝g(sa,sb)＝exp(-||sa-sb||₁)，0＝<p<＝1

或者p＝cosine(sa,sb)。

一种文本相似度评估***，其特征在于，包括：

语料获取模块，用于输入包含doc1_a和doc1_b两个文本的语料，所述文本doc1_a和所述文本doc1_b分别包含Y个句子；

分词模块，用于将所述文本doc1_a和所述文本doc1_b中各自第k个句子分别分割成X个词的词序列，k取值1至Y；

词向量训练模块，用于对所述文本doc1_a和所述文本doc1_b中各自第k个句子分割的词序列进行向量化；

第一孪生biLSTM网络模块，包括biLSTMa1网络模块和biLSTMb1网络模块，分别用于输入所述文本doc1_a和所述文本doc1_b中各自第k个句子的每一个词的词向量，对每一个词的词向量进行词级编码，输出所述文本doc1_a和所述文本doc1_b各自第k个句子的每个词的编码信息Hai和Hbi，i取值1至X；

第一注意力模块，分别为所述编码信息Hai和Hbi提供正则化的权重ai和正则化的权重bi，其中∑ai＝1，∑bi＝1，通过公式sak＝∑ai*Hai计算得到所述文本doc1_a中第k个句子的注意力向量sak，通过公式sbk＝∑bi*Hbi计算得到所述文本doc1_b的中第k个句子的注意力向量sbk；

第二孪生biLSTM网络模块，包括biLSTMa2网络模块和biLSTMb2网络模块，分别用于输入所述注意力向量sak和所述注意力向量sak，对所述注意力向量sak和所述注意力向量sbk进行句子级编码，输出对应的编码信息HAk和HBk；第二注意力模块，分别为所述编码信息HAk和HBk提供正则化的权重Ak和正则化的权重Bk，其中∑Ak＝1，∑Bk＝1，通过公式Va＝∑Ak*HAk计算得到所述文本doc1_a的注意力向量Va,通过公式Vb＝∑Bk*HBk计算得到所述文本doc1_b的注意力向量Vb；

相似概率计算模块，通过所述注意力向量Va和所述注意力向量Vb计算所述文本doc1_a和所述文本doc1_b的相似概率p。

本发明还提供一种存储器，其特征在于，所述存储器存储上述的文本相似度评估***的程序。

本发明的第二目的是提供一种文本相似度评估方法，基于上文所述的文本相似度评估***，对输入的两个待预测的文本进行相似度评估。本发明的第二目的由以下技术方案实现：

一种文本相似度评估方法，其特征在于：将两个待预测文本输入上文所述的文本相似度评估***，输出所述两个待预测文本的相似概率p。

本发明还提供一种计算机，包括存储器以及处理器，其特征在于，所述存储器存储支持处理器执行上述文本相似度评估方法的程序，所述处理器被配置为用于执行所述存储器中存储的所述程序。

本发明的有益效果在于：提出了一种基于注意力机制的孪生网络结构，能够寻找决定两个文本相似程度的重要信息，相较于现有的技术，本发明提出的网络结构更加注重局部信息，排除全局信息的干扰，提升在不同场景中文本相似度计算的准确度。本发明在计算句子相似度方面有着更好的效果。

附图说明

图1为本发明提供的文本相似度评估***的原理图。

图2为本发明提供的文本相似度评估***的数据处理过程的网络结构图。

图3为在图2基础上增加句子级的孪生biLSTM网络模块及句子级的注意力模块后的文本相似度评估***的数据处理过程的网络结构图。

具体实施方式

实施例一

结合图1所示，本实施例提供的文本相似度评估***包括：语料获取模块、分词模块、词向量训练模块、孪生biLSTM网络(Bi-directional Long Short TermMemory，双向长短期记忆网络，简写为biLSTM)模块、注意力模块、相似概率计算模块及参数训练模块。下面详细说明：

语料获取模块用于输入包含doc1_a和doc1_b两个文本的语料。本实施例中，语料形式为：doc1_a,doc1_b,sim；其中doc1_a和doc1_b为两个相似或者不相似的文本，sim为标签，sim＝1表示相似，sim＝0表示不相似。

分词模块用于将文本doc1_a和文本doc1_b分别分割成词序列，结合图2所示，将文本doc1_a分割为Wa1、Wa2、Wa3、Wa4四个词的词序列，将文本doc1_b分割为Wb1、Wb2、Wb3、Wb4四个词的词序列。结巴分词工具是一种常见的分词工具，效果如下：

“中科院计算所的学生和老师们”——>[中科院，计算所，的，学生，和，老师，们]。

词向量训练模块，用于对文本doc1_a和文本doc1_b分割的词序列进行向量化。word2vec(即word to vector，也叫word embeddings，中文名“词向量”)是由谷歌开发并开源的一个词向量生成工具，是一种使用神经网络模型挖掘词语间潜在语义关联信息的方法，其核心思想是通过上下文出现的词来预测当前的词，通过共现词来挖掘词的潜在特征，产出的形式是将每个词表示成一个低维的稠密向量。结合图2所示，文本doc1_a分割形成的Wa1、Wa2、Wa3、Wa4四个词，其词向量分别表示为Va1、Va2、Va3、Va4；文本doc1_b分割形成的Wb1、Wb2、Wb3、Wb4四个词，其词向量分别表示为Vb1、Vb2、Vb3、Vb4。

实际中可根据具体的条件设置词向量的维度，一般设置为300维，即300*1的向量。例如：

“中科院”—>[0.03,0.3,0.423,0.43,0.7623,1.32,2.34,0.1323,……]_300*1向量中各个维度的值由语料训练得到。

我们知道，LSTM网络(Long Short Term Memory,长短期记忆网络，简写为LSTM)是一种循环神经网络(Recurrent Neural Network，简写为RNN)的改进模型，其通过遗忘门决定哪些信息需要被滤掉，输入门决定当前输入信息和当前的状态，输出门决定输出。通过门的方法学习文本的上下文信息。biLSTM是一种双向的结构，他认为文本正序和倒序都能捕捉到有用的信息，通常在训练中将双向的信息进行拼接，一起进入下一层的运算。

结合图1所示，孪生biLSTM网络模块包括biLSTMa网络模块和biLSTMb网络模块，分别用于输入文本doc1_a和文本doc1_b的每一个词的词向量(上文所述的Va1、Va2、Va3、Va4；Vb1、Vb2、Vb3、Vb4)，对每一个词的词向量进行词级编码(Encoding)，输出文本doc1_a和文本doc1_b的每个词的编码信息Hai和Hbi，i是文本doc1_a和文本doc1_b分词的个数，本实施例中i取1至4，如图2中的Ha1至Ha4及Hb1至Hb4。其中Hai和Hbi由biLSTM网络模块隐藏层状态向量拼接得到，例如，Hai＝[ha+i,ha-i]，ha+i、ha-i分别为biLSTMa两个不同隐藏层生成的隐层状态向量。

注意力模块包括Tanh函数感知单元、softmax函数处理单元和加权求和单元，结合图1所示，具体说明如下：

Tanh函数感知单元，通过公式uai＝Tanh(W*Hai+b)对编码信息Hai进行计算并输出一个权值uai，通过公式ubi＝Tanh(W*Hbi+b)对编码信息Hbi进行计算并输出一个权值ubi；

softmax函数处理单元，通过公式ai＝softmax(uai*uw)计算得到文本doc1_a当前词的正则化的权重ai，通过公式bi＝softmax(ubi*uw)计算得到文本doc1_b当前词的正则化的权重bi，其中∑ai＝1，∑bi＝1；

加权求和单元，用于通过公式sa＝∑ai*Hai计算得到文本doc1_a的注意力向量sa，通过公式sb＝∑bi*Hbi计算得到文本doc1_b的注意力向量sb。

相似概率计算模块通过注意力向量sa和注意力向量sb计算文本doc1_a和文本doc1_b的相似概率p。具体地，相似概率p可以通过曼哈顿距离计算方法或求余弦值的方法来计算，相应的计算公式分别如下：

p＝g(sa,sb)＝exp(-||sa-sb||₁)，0＝<p<＝1

或者p＝cosine(sa,sb)。

上述公式中的参数W、uw、b为设定或经训练获得的参数；本实施例中的参数训练模块通过设置损失函数并不断进行优化，直到损失函数收敛，从而确定所述参数W、uw、b。本实施例中，损失函数logloss具体如下：

该公式中，N是测试样本总数，M是类的总数，y_l,j是二值变量，取值0或1，表示第l个样本是否属于第j类的标签，p_l,j为模型预测第l个样本属于第j类的标签为1的概率。

优化的方法是梯度下降优化方法，输入数据，开始训练，直到收敛。损失函数也可以根据实际情况选择均方误差(mse)等函数。通过损失函数对模型进行训练并确定合适参数的方法属于神经网络训练过程的现有技术，本文不再赘述。

实施例二

本发明可以处理的文本并没有限制文本的具体长度，如果是句子，实施例一提供的基于词级(word level)的孪生biLSTM网络及注意力模块的***结构就可以得到表示句子的注意力向量，如果是段落或者文章这样的长文本的话，则还需在得到多个句子向量(即多个实施例一中得到的sa和sb)后再加一层句子级(sentence level)的孪生biLSTM网络模块和句子级的注意力模块，最终得到可以表示长文本的注意力向量，其他环节不变。

本实施例二提供一种文本相似度评估***，可以处理分别包括多个句子的两个长文本，该评估***包括语料获取模块、分词模块、词向量训练模块、第一孪生biLSTM网络模块、第一注意力模块、第二孪生biLSTM网络模块、第二注意力模块及相似概率计算模块，具体说明如下：

语料获取模块，用于输入包含doc1_a和doc1_b两个文本的语料，文本doc1_a和所述文本doc1_b分别包含Y个句子(例如各自包含4个句子)；

分词模块，用于将文本doc1_a和文本doc1_b中各自第k个句子(图3中只给出文本doc1_a和文本doc1_b中某一个句子作为示例)分别分割成X个词(例如4个词，参见图3中的Wa1、Wa2、Wa3、Wa4和Wb1、Wb2、Wb3、Wb4)的词序列，k取1至Y；

词向量训练模块，用于对所述文本doc1_a和所述文本doc1_b中各自第k个句子分割的词序列进行向量化；例如，文本doc1_a分割形成的Wa1、Wa2、Wa3、Wa4四个词，其词向量分别表示为Va1、Va2、Va3、Va4；文本doc1_b分割形成的Wb1、Wb2、Wb3、Wb4四个词，其词向量分别表示为Vb1、Vb2、Vb3、Vb4。

第一孪生biLSTM网络模块，包括biLSTMa1网络模块和biLSTMb1网络模块，分别用于输入所述文本doc1_a和所述文本doc1_b中各自第k个句子的每一个词的词向量，对每一个词的词向量进行词级编码，输出文本doc1_a和文本doc1_b各自第k个句子的每个词的编码信息Hai和Hbi，i取1至X；参见图3中的Ha1至Ha4及Hb1至Hb4。

第一注意力模块，分别为所述编码信息Hai和Hbi提供正则化的权重ai和正则化的权重bi，其中∑ai＝1，∑bi＝1，通过公式sak＝∑ai*Hai计算得到所述文本doc1_a中第k个句子的注意力向量sak(例如图3中的sa3)，通过公式sbk＝∑bi*Hbi计算得到所述文本doc1_b的中第k个句子的注意力向量sbk(例如图3中的sb3)。

第二孪生biLSTM网络模块，包括biLSTMa2网络模块和biLSTMb2网络模块，分别用于输入所述注意力向量sak和所述注意力向量sak，对所述注意力向量sak和所述注意力向量sbk进行句子级编码，输出对应的编码信息HAk和HBk；参见图3中的HA1至HA4及HB1至HB4。

第二注意力模块，分别为所述编码信息HAk和HBk提供正则化的权重Ak和正则化的权重Bk(参见图3中的A1-A4及B1-B4)，其中∑Ak＝1，∑Bk＝1，通过公式Va＝∑Ak*HAk计算得到所述文本doc1_a的注意力向量Va,通过公式Vb＝∑Bk*HBk计算得到所述文本doc1_b的注意力向量Vb。

相似概率计算模块通过所述注意力向量Va和所述注意力向量Vb计算所述文本doc1_a和所述文本doc1_b的相似概率p。

实施例二中的第一孪生biLSTM网络模块、第二孪生biLSTM网络模块的功能与实施例一中所述的孪生biLSTM网络模块的功能相同，本实施例中通过“第一”、“第二”的限定仅用于区分词级的处理环节和句子级的处理环节。此外，实施例二中的第一注意力模块、第二注意力模块的功能亦与实施例一中所述的注意力模块的功能相同，本实施例中通过“第一”、“第二”的限定仅用于区分词级的处理环节和句子级的处理环节。再者，实施例二中的相似概率计算模块与实施例一中所述的相似概率计算模块的功能相同。还有，本实施例二提供文本相似度评估***也包括与实施例一中所述的参数训练模块功能相同的参数训练模块。

本实施例还提供一种存储器，该存储器存储上述的文本相似度评估***的程序。

本实施例还提供一种文本相似度评估方法，训练好的文本相似度评估***即可处理待预测的文本，将要判断的两个文本输入模型，输出两个文本的相似概率p，即为两个文本的相似度。

本实施例还提供一种计算机，包括存储器以及处理器，所述存储器存储支持处理器执行上述文本相似度评估方法的程序，所述处理器被配置为用于执行所述存储器中存储的所述程序。

以上实施例仅为充分公开而非限制本发明，凡基于本发明的创作主旨、无需经过创造性劳动即可等到的等效技术特征的替换，应当视为本申请揭露的范围。

Claims

1.一种文本相似度评估***，其特征在于，包括：

2.一种存储器，其特征在于，所述存储器存储权利要求1所述的文本相似度评估***的程序。

3.一种文本相似度评估方法，其特征在于：将两个待预测文本输入权利要求1所述的文本相似度评估***，输出所述两个待预测文本的相似概率p。

4.一种计算机，包括存储器以及处理器，其特征在于，所述存储器存储支持处理器执行权利要求3所述文本相似度评估方法的程序，所述处理器被配置为用于执行所述存储器中存储的所述程序。