CN113011194B

CN113011194B - 融合关键词特征和多粒度语义特征的文本相似度计算方法

Info

Publication number: CN113011194B
Application number: CN202110403916.1A
Authority: CN
Inventors: 刘丹; 张成辉; 史梦雨
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2022-05-03
Anticipated expiration: 2041-04-15
Also published as: CN113011194A

Abstract

本发明公开了一种融合关键词特征和多粒度语义特征的文本相似度计算方法，属于自然语言智能处理技术领域。本发明首先基于关键词特征，引入Ksimhash算法，计算当前两个文本的相似度sim₁；其次，利用TFIDF算法，抽取出文本关键词，并利用Word2vec模型得到每个词对应的词向量，利用关键词以及关键词向量信息得到文本对应的词语语义向量，基于词语语义向量，计算当前两个文本的相似度sim₂；然后，利用Doc2vec模型，得到每篇文本对应的篇章语义向量，基于文本语义向量，计算当前两个文本的相似度sim₃；最后，对sim₁、sim₂、sim₃相加求平均，得到最终文本的相似度结果。本发明计算得到的相似度准确度高，可用于文本检索、查重等应用领域。

Description

融合关键词特征和多粒度语义特征的文本相似度计算方法

技术领域

本发明属于自然语言智能处理技术领域，特别涉及一种融合关键词特征和多粒度语义特征的文本相似度计算方法。

背景技术

在比较两篇文章的相似度时，传统的算法有通常以下两类：

一类方案是先将两篇文章分别进行分词，得到一系列词语特征向量，然后计算特征向量之间的距离，如计算它们之间的欧氏距离、海明距离或者夹角余弦等等，从而通过距离的大小来判断两篇文章的相似度。另一类方案是传统hash，考虑为每一个文本通过hash的方式生成一个指纹。第一类方案单纯的使用词特征向量来表征文本内容，容易造成语义的缺失；而第二类方案，其设计目的是为了让整个分布尽可能地均匀，但如果输入内容一旦出现轻微变化，hash值就可能会生很大变化。

Ksimhash作为关键词哈希的一种，其主要思想是降维，将高维的特征向量映射成低维的特征向量，通过两个向量的海明距离来确定文章是否重复或者高度近似。在信息论中，两个等长字符串之间的海明距离是两个字符串对应位置不同字符的个数。即它是将一个字符串变换成另外一个字符串所需要替换的字符个数。

在文本的语义表征层面，Word2vec是常用的词语层向量表示模型。在Word2vec词袋模型训练完成之后，Word2vec模型可映射每个词到一个向量，该向量在一定程度上放映了该词语义特征。在Word2vec模型上引申出的Doc2vec模型，可用于预测一个向量来表示不同的文本或段落语义，该模型的结构克服了Word2vec词袋模型忽略词顺序以及忽略上下文关系的缺点。

发明内容

基于以上技术问题，本发明提供了一种融合关键词特征和多粒度语义特征的文本相似度计算方法，以提升文本间的相似度度量的准确性。

本发明的融合关键词特征和多粒度语义特征的文本相似度计算方法，在获取任意两个文本d_i和d_j的相似度时，执行下列步骤；

步骤1：抽取文本d_i和d_j的关键词；

步骤2：基于Ksimhash算法抽取文本的关键词特征指纹f_i1和f_j1，并计算f_i1和f_j1的海明距离得到文本d_i和d_j的关键词特征相似度sim₁；

步骤3：计算文本d_i和d_j的词语语义相似度sim₂；

步骤4：计算文本d_i和d_j的篇章语义相似度sim₃；

步骤5：综合关键词特征相似度sim₁、词语语义相似度sim₂和篇章语义相似度sim₃，得到文本d_i和d_j的相似度sim。

优选的，所述步骤1中，抽取文本的关键词具体为：

步骤1.1：对文本的内容进行文本预处理，得到文本候选词集，所述文本预处理包括：分词、去停用词。

步骤1.2：从文本候选词集中抽取文本的关键词：计算文本候选词集中的所有词语的TFIDF值，将前K个TFIDF值最大的词语作为文本关键词，其中K的取值为正整数，可基于实际应用场景进行设置；

优选的，所述步骤2中，抽取文本的关键词特征指包括：

步骤2.1：计算每个关键词k(k＝1，2，…，K)的指定位数(例如16位)hash值K_h：对组成每个关键词的字编码进行指定位数的hash运算，得到各字的hash值，再将各字的hash值进行位异或运算，得到该关键词的hash值；

步骤2.2：计算每个关键词的加权hash值：关键词k的加权值W_k＝TFIDF_k×K_h，TFIDF_k表示关键词k的TFIDF值，即关键词的权重且K_h为1的位和权重TFIDF_k正相乘，为0的位和权重TFIDF_k负相乘。例如一个关键词K_h＝[010110]，其对应的权重为TFIDF_k＝5，则加权后得到[-5,5,-5,5,5,-5]；

步骤2.3：将所有关键词的加权hash值进行求和(即按位求和)，得到累加向量。如[-5,5,-5,5,5,5]、[-3,-3,-3,3,-3,3]、[1,-1,-1,1,1,1]累加后得到[-7,1,-9,9,3,9]；

步骤2.4：对得到的累加向量进行降维计算得到文本的关键词特征指纹：对累加向量的每个元素值进行判断，大于0则置为1，否则置为0，从而得到文本d_i和d_j各自的关键词特征指纹f_i1和f_j1进而基于文本d_i和d_j的关键词特征指纹，计算两者之间的海明距离，得到文本d_i和d_j的关键词特征相似度sim₁。

例如，对累加向量[-7,1,-9,9,3,9]进行降维计算，得到的文本的关键词特征指纹为010111。

进一步的，文本d_i和d_j的关键词特征相似度sim₁可以设置为：

其中，H_i,j表示文本d_i和d_j的关键词特征指纹之间的海明距离，max()函数表示取最大值，函数len()表示计算字符串的长度。在计算两个关键词特征指纹之间的海明距离时，若两个文本的关键词特征指纹的长度(字符串长度)不相同时，对长度较短的关键词特征指纹进行低位补位操作，使两者长度相同。优选的，在低位补0以使得两个关键词特征指纹的长度相同。

优选的，所述步骤3包括以下步骤：

步骤3.1：基于文本的每个关键词，将其前后N个词作为上下文，建立实数向量(例如采用word2vec的CBOW模型的超参数建立)，最终使得每个关键词w_i都对应一个语义向量

其中N为正整数，

步骤3.2：计算文本的词语语义指纹f₂：将K个关键词的语义向量求和，得到文本的词语语义指纹f₂，即：

步骤3.3：计算文本d_i和文本d_j对应的词语语义指纹f_i2和f_j2的余弦相似度，得到d_i和d_j的词语语义相似度sim₂。

优选的，所述步骤4包括以下步骤：

步骤4.1：抽取文本中前L个最长的句子作为文本的代表句，并获取每个代表句的句向量，以使得每个代表句s_l都对应一个语义向量

其中，L为正整数；示例性的，可以采用DOC2VEC中的PV-DM模型计算代表句的句向量；

步骤4.2：计算文本的篇章语义指纹f₃：将L个代表句的语义向量求和得到篇章语义指纹f₃，即：

步骤4.3：计算文本d_i和d_j对应的篇章语义指纹f_i3和f_j3的余弦相似度，得到d_i和d_j的篇章语义相似度sim₃。

优选的，所述步骤5中，基于关键词特征相似度sim₁、词语语义相似度sim₂和篇章语义相似度sim₃的均值得到文本d_i和d_j的相似度sim。

综上所述，由于采用了上述技术方案，本发明的有益效果是：在计算两个文本的相似度时，充分考虑文本的关键词特征以及语义特征。同时语义特征的关注点不止停留在词语粒度层，还扩展到整个篇章粒度层，建立多维度文本表示向量，使得文本相似度计算更加准确。本发明可以用于文章的查重，文章的检索等应用领域。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种融合关键词特征和多粒度语义特征的文本相似度计算方法的处理流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例针对传统文本相似度计算方法忽略文本关键词特征与语义特征相结合，以及过多关注词语语义，忽略句子、段落、文本等粗粒度层语义的问题，提出一种融合关键词特征和多粒度语义特征的文本相似度计算方法，参见图1，本发明实施例提供的融合关键词特征和多粒度语义特征的文本相似度计算方法包括下列步骤：

在本实施例中，以计算文本d_i和d_j的相似度为例进行描述，虑了三个维度的特征：关键词特征、词语级语义特征、文本级语义特征。

步骤1：基于Ksimhash算法，得到文本指纹，计算两个文本指纹的海明距离，得到两个文本在关键词特征上的相似度。具体为：

步骤1.1：对当前文本d_i的文本内容进行分词。

本实施例中，分词采用的工具为jieba，文本d_i进行分词处理后形成词袋，即d_i＝[w_i1,w_i2,…,w_in]，w_ik代表文本d_i中第k(k＝1,2，…，n)个词语，词袋中每个词语之间没有语义关联；

步骤1.2：去除词袋中的停用词。

去停用词时引入停用词表，判断词袋中的每个词是否在停用词表中出现，若出现，则在词袋中去除该词；

步骤1.3：去除停用词后，得到一个过滤后的词袋d_i＝[w_i1,w_i2,…,w_im]，该词袋中，w_ik(k＝1,2，…，m)代表文本d_i中出现且未出现在停用词表中的词语。

基于过滤后的词袋，抽取当前文本的关键词，考虑当前词袋中每个词的词频逆文本频率特征，利用TFIDF(Term Frequency–Inverse Document Frequency)算法，得到当前文本TFIDF值排名前K(K的取值为经验值，优选的取值范围为[5,10]，本实施例中，K的值设为10)的词语，形成关键词列表

每个关键词keyword_i-k都对应一个权重weight_i-k，即权重为其对应的TFIDF值。

其中，TFIDF计算公式如下：

其中，count(w_ik)代表词语w_ik在文本d_i中出现的次数，|d_i|表示当前文本的总词数，N代表文本总数，I(w_ik,d_m)代表词语w_ik是否在文本d_m中出现，若出现，I(w_ik,d_m)值为1，若未出现，I(w_ik,d_m)值为0。

从而最终得到一个词语-权重集合(w_k,weight_k)；

步骤1.4：对当前文本的关键词列表中的词语进行哈希操作，计算每个关键词的hash值，得到(hash_k,weight_k)集合；

步骤1.5：每个关键词keyword_i-k在hash值的基础上，根据其对应的权重weight_i-k进行加权，即：W_k＝hash_k×weight_k，hash值为1则和权重正相乘，为0则和权重负相乘。例如一个词经过hash后得到[010110]，它对应的权重为5，则加权后得到[-5,5,-5,5,5,-5]；

步骤1.6：将关键词列表中的所有词对应的加权hash向量进行求和，如[-5,5,-5,5,5,5]、[-3,-3,-3,3,-3,3]、[1,-1,-1,1,1,1]累加后得到[-7,1,-9,9,3,9]；

步骤1.7：对得到的累加向量进行降维操作。即：大于0就置为1，否则置为0，从而得到该语句的Ksimhash值。

例如，[-7,1,-9,9,3,9]，得到010111，该值作为当前文本的Ksimhash值。

示例性的，基于上述计算处理后可得到d_i文本的Ksimhash值为f_i1：0011010101000110111001110000100010000110010111011101010000100100，d_j文本的Ksimhash值为f_j1：0010110100010011110011100100100011001110110011011000110101001101；

步骤1.8：利用文本d_i和d_j各自对应的文本指纹f_i1和f_j1，计算f_i1和f_j1的海明距离H_i,j。海明距离的定义为文本指纹的差异的位数。

步骤1.9：获取d_i和d_j的关键词特征相似度sim₁，其中

对应上述示例，可得到取d_i和d_j的关键词特征相似度sim₁为0.65625。

步骤2：基于Word2vec模型，得到两个文本在词语的语义向量，计算两个词语级语义向量的余弦相似度。具体为：

步骤2.1：利用所有文本，基于Word2vec模型，训练词向量，使得每个词w_n都对应一个语义向量

步骤2.2：对于当前文本d_i，利用TFIDF算法得到文本对应的关键词列表

列表中每个词语keyword_i-k都对应一个词向量

计算当前文本对应的词语语义向量，即：

示例性的，可将语义向量的维度设置为200维。

步骤2.3：对每篇文本都进行步骤2的操作，使得每篇文本都有其唯一对应的词语语义向量；

步骤2.4：计算文本d_i和文本d_j对应的词语语义向量f_i2和f_j2的余弦相似度，得到d_i和d_j的词语语义相似度sim₂。设f_i2和f_j2的维度为n，即f_i2＝[f_i21,f_i22,…,f_i2n]，f_j2＝[f_j21,f_j22,…,f_j2n]，则sim₂的计算公式为：

示例性的，本示例中计算得到的sim₂＝0.15181794593072392。

步骤3：基于Doc2vec模型，得到两个文本在篇章的语义向量，计算两个文本级语义向量的余弦相似度。具体步骤如下：

步骤3.1：利用Doc2vec模型，得到文本d_i和文本d_j各自对应的文本向量f_i3和f_j3；即基于文本的代表句获取文本向量f_i3和f_j3。示例性的，在计算各代表句的语义向量时，可将语义向量的维度设置为200维。

步骤3.2：计算f_i3和f_j3的余弦相似度，得到d_i和d_j的篇章语义相似度sim₃。设f_i3和f_j3的维度为n，即f_i3＝[f_i31,f_i32,…,f_i3n]，f_j3＝[f_j31,f_j32,…,f_j3n]，sim₃(0.34401781495762856)的计算公式为：

示例性的，本示例中计算得到的sim₃＝0.34401781495762856。

步骤4：对三个局部相似度值sim₁、sim₂、sim₃相加求平均，得到文本d_i和文本d_j最终的相似值sim：。

对应上述三个示例，可得到文本d_i和文本d_j最终的相似值sim为：0.3840285869627842。

本发明实施例所提供的相似度计算方法可用于文本检索、查重等应用领域。例如，待处理文本记为文本d_i，检索的文本集或查重的文本库中任意一篇文本记为文本d_j，首先计算文本d_i和文本d_j最终的相似值sim，将相似值sim达到第一指定阈值(大于或等于指定阈值)的文本d_j作为其检索或查重结果。

进一步的，还可以首选对检索的文本集或查重的文本库进行聚类，得到多个聚类结果(多个簇)，然后首先计算文本d_i与每个聚类中心所对应的文本之间的相似度sim，当其达到第二指定阈值时，得到其所属的簇，然后再分别计算文本d_i与该簇中各文本之间的相似度sim，将最大相似度sim对应的文本作为其查重或检索结果。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种融合关键词特征和多粒度语义特征的文本相似度计算方法，在获取任意两个文本d_i和d_j的相似度时，其特征在于，执行下列步骤；

步骤1：抽取文本d_i和d_j的关键词：

步骤1.1：对文本的内容进行文本预处理，得到文本候选词集，所述文本预处理包括：分词、去停用词；

步骤1.2：从文本候选词集中抽取文本的关键词：计算文本候选词集中的所有词语的TFIDF值，将前K个TFIDF值最大的词语作为文本关键词，其中K的取值为正整数；

其中，文本的关键词特征指纹的计算为：

步骤2.1：计算每个关键词k的指定位数hash值K_h：对组成每个关键词的字编码进行指定位数的hash运算，得到各字的hash值，再将各字的hash值进行位异或运算，得到当前关键词的hash值；

步骤2.2：计算每个关键词的加权hash值：

定义关键词k的加权值W_k＝TFIDF_k×K_h；

其中TFIDF_k表示关键词k的TFIDF值，

且K_h为1的位和TFIDF_k正相乘，为0的位和TFIDF_k负相乘；

步骤2.3：将文本的所有关键词的加权hash值进行求和，得到累加向量；

步骤2.4：对得到的累加向量进行降维计算得到文本的关键词特征指纹：对累加向量的每个元素值进行判断，大于0则置为1，否则置为0；

步骤3：计算文本d_i和d_j的词语语义相似度sim₂；

步骤4：计算文本d_i和d_j的篇章语义相似度sim₃；

2.如权利要求1所述的方法，其特征在于，将K的取值范围设置为[5,10]。

3.如权利要求1或2所述的方法，其特征在于，所述文本d_i和d_j的关键词特征相似度sim₁为：

其中，H_i,j表示文本d_i和d_j的关键词特征指纹f_i1和f_j1之间的海明距离，max()函数表示取最大值，函数len()表示计算字符串的长度，且在计算关键词特征指纹f_i1和f_j1之间的海明距离时，若关键词特征指纹f_i1和f_j1的长度不同时，对长度较短的关键词特征指纹进行低位补位操作。

4.如权利要求1所述的方法，其特征在于，所述步骤3包括以下步骤：

步骤3.1：基于文本的每个关键词，将其前后N个词作为上下文，建立实数向量，以使得每个关键词w_i都对应一个语义向量

其中N为正整数；

步骤3.2：对文本的所有关键词的语义向量求和，得到文本的词语语义指纹f₂；

5.如权利要求1所述的方法，其特征在于，所述步骤4包括以下步骤：

其中，L为正整数；

步骤4.2：将L个代表句的语义向量求和得到篇章语义指纹f₃；

6.如权利要求1所述的方法，其特征在于，所述步骤5中，基于关键词特征相似度sim₁、词语语义相似度sim₂和篇章语义相似度sim₃的均值得到文本d_i和d_j的相似度sim。