CN107992470A

CN107992470A - 一种基于相似度的文本查重方法及***

Info

Publication number: CN107992470A
Application number: CN201711088752.8A
Authority: CN
Inventors: 肖云; 王闰强; 胡松波; 何洪波
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2018-05-04

Abstract

本发明提供一种基于相似度的文本查重方法，其步骤包括：对待对比文本进行预处理；从文本数据库中筛选出与所述待对比文本的粗粒度相似度大于一相似候选集阈值的所有候选文本并组成相似候选集；以句子为分段单位，对所述待对比文本和所述候选文本进行分段；通过计算所述候选文本与所述待对比文本的TFIDF相似度、LDA相似度、doc2vec相似度和word2vec相似度来确定细粒度相似度；筛选出细粒度相似度超过一相似判定阈值的候选文本，确定其为所述待对比文本的相似文本，实现查重。本发明还提供一种基于相似度的文本查重***，以实现上述方法。

Description

一种基于相似度的文本查重方法及***

技术领域

本发明涉及数字版权领域，具体为一种基于相似度的文本查重方法及***。

背景技术

目前，数字版权技术广泛应用于防止数字媒体的非法复制。现有针对文本的数字版权技术，主要是要识别分析文本相似程度，通常使用Hash技术对文本进行查重，及时发现文本是否被非法复制，达到版权保护的目的。但是，一段文本可能通过简单的修改就会使Hash后的编码发生变化，此时再利用上述现有技术对文本查重，其效果就不是很理想。

发明内容

本发明的目的是提供一种基于相似度的文本查重方法及***，用于对传统文本数字版权中的文本查重，解决效果不理想的问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于相似度的文本查重方法，其步骤包括：

对待对比文本进行预处理；

从文本数据库中筛选出与所述待对比文本的粗粒度相似度大于一相似候选集阈值的所有候选文本并组成相似候选集；

以句子为分段单位，对所述待对比文本和所述候选文本进行分段；

通过计算所述候选文本与所述待对比文本的TFIDF相似度、LDA相似度、doc2vec相似度和word2vec相似度来确定细粒度相似度；

筛选出细粒度相似度超过一相似判定阈值的候选文本，确定其为所述待对比文本的相似文本，实现查重。

优选地，所述预处理包括对所述待对比文本进行分词处理和停用词过滤处理。

优选地，所述粗粒度相似度是指所述待对比文本与所述候选文本的相同词的数量占二者总词量的比例。

优选地，所述相似候选集阈值的确定方法是：从所述文本数据库中选取一定数量的文本，通过相似性标注产生相似文本对集合S1，计算该集合S1包含的相似文本对的Jaccard相似度，选取最小Jaccard相似度作为相似候选集阈值。

优选地，计算所述TFIDF相似度的方法是：先分别对所述待对比文本和所述候选文本进行TFIDF向量化，获得向量；再计算该两个向量的余弦相似度，即为TFIDF相似度。

优选地，计算所述LDA相似度的方法是：先分别对所述待对比文本和所述候选文本进行LDA向量化，获得向量；再计算该两个向量的余弦相似度，即为LDA相似度。

优选地，计算所述doc2vec相似度的方法是：先分别对所述待对比文本和所述候选文本进行doc2vec向量化，获得向量；再计算该两个向量的余弦相似度，即为doc2vec相似度。

优选地，计算所述word2vec相似度的方法是：先分别对所述待对比文本和所述候选文本进行word2vec向量化，获得向量；再计算该两个向量的余弦相似度，即为word2vec相似度。

优选地，所述余弦相似度是通过SIMcos(vec1,vec2)函数计算得到。

优选地，所述TFIDF、LDA、doc2vec及word2vec的向量化所用的函数模型需通过从所述文本数据库中选取的一定数量的文本进行训练。

优选地，所述相似判定阈值的确定方法是：将所述相似文本对集合S1进行精细标注产生相似文本对集合S2，在相似文本对集合S2中计算文本对的细粒度相似度，将使得针对该文本对的相似性判定的准确率和召回率取得一相对平衡的最高值或者使得该文本对的F1值取得最高值的阈值作为相似判定阈值。

优选地，所述细粒度相似度等于所述TFIDF相似度、LDA相似度、doc2vec相似度和word2vec相似度与各自所占权重的乘积的加和。

优选地，所述各权重值为从所述相似文本对集合S2中选取的最大AUC值。

一种基于相似度的文本查重***，包括存储器和处理器，所述存储器存储计算机程序，所述程序被配置为由所述处理器执行，所述程序包括用于执行上述方法中各步骤的指令。

本发明提供的基于相似度的文本查重方法，在接受到待对比文本后，从文本数据库中根据粗粒度相似度大于相似候选集阈值来筛选出相似候选集，进而计算每一候选文本与待对比文本的细粒度相似度，进一步地通过相似判定阈值限定，从而从诸多候选文本中找出相似文本。其中，利用TFIDF相似度、LDA相似度、doc2vec相似度和word2vec相似度进行融合来确定候选文本和相似文本的细粒度相似度，从各个角度去确定文本相似程度，增强了文本相似度的准确性，并且经过实验对比发现，当使用单一相似度判断相似方法时，准确率在86％到89％左右，而使用本专利中的判断方法时，准确率达到93％左右。

附图说明

图1是一种基于相似度的文本查重方法流程图。

图2是细粒度相似度组成示意图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本实施例提供一种基于相似度的文本查重方法，利用文本相似度进行查重处理，如图1所示，步骤包括：

1、对待对比文本D1进行预处理：

预处理包括分词和去停用词，其中分词可以使用结巴等开源的分词工具，去停用词人为设定停用词表或者收集网上已用的停用词表完成去停用词的功能。

2、获取相似候选集：

从文本数据库中筛选出相似候选集，该集合中的每一个候选文本D2与待对比文本D1的粗粒度相似度SIMjaccard(D1,D2)都大于相似候选集阈值。

SIMjaccard(D1,D2)＝Count(D1∩D2)/Count(D1UD2)，其中Count(D1∩D2)表示D1、D2中相同词的个数，Count(D1UD2)表示D1、D2总共词的个数。

其中，相似候选集阈值确定方法是，首先从文本数据库中选取20万篇文本，然后进行相似性标注产生5万相似文本对，组成集合S1，计算这些相似文本对的Jaccard相似度，然后选取最小Jaccard相似度作为相似候选集阈值，保证相似的文本尽可能的被召回回来。

3、计算细粒度相似度Similarity(D1,D2)：

细粒度相似度Similarity(D1,D2)由TFIDF相似度、LDA相似度、doc2vec相似度、word2vec相似度确定，如图2所示，具体计算过程如下：

1)计算TFIDF相似度SIMtfidf(D1,D2)：

SIMtfidf(D1,D2)＝SIMcos(TFIDFvec(D1),TFIDFvec(D2))，其中SIMcos表示求两个向量的余弦相似度，TFIDFvec(D1)和TFIDFvec(D2)分别表示对待对比文本D1以及候选文本D2进行TFIDF向量化。

TFIDFvec(D)函数作用是把一篇文本TFIDF向量化，它的输入是一篇文本，输出是一个向量。TFIDFvec(D)函数主要有两个过程平率：计算文本平率tf和逆向文本平率idf；

以上式子中n_i,j是词t_i在文本d_j中的出现次数，而分母则是在文本d_j中所有字词的出现次数之和；

以上式子中|D|表示语料中的文本总数；

tfidf_i,j＝tf_i,j*idf_i

以上式子表示一个词的tfidf等于其它词频乘以该词的逆向文本频率。

其中每个词的逆向文本频率会使用预先准备的语料集合训练好，本发明中使用从文本数据库中选取的20万篇预先准备的文本训练逆得到每个词的逆向文本频率，以及产生一个词典，后面只有在该词典中出现的词才会参与计算。

2)计算LDA相似度SIMlda(D1,D2)：

SIMlda(D1,D2)＝SIMcos(LDAvec(D1),LDAvec(D2))，其中SIMcos表示求两个向量的余弦相似度，LDAvec(D1)和LDAvec(D2)分别表示对待对比文本D1以及候选文本D2进行LDA向量化。

LDAvec(D)函数的作用是把一篇文本LDA向量化，它的输入是一篇文本，输出是一个向量。LDAvec(D)由两个部分组成：第一部分确定参数，这一部分使用20万篇文本训练LDA模型，确定LDA模型参数；第二部分生成向量，这一部分传入一篇文本，生成这篇文本对应的主题向量，这个主题向量经过归一化，其中每一个维度代表传入文本在该维度代表的主题上的主题值，这部分实现主要通过python中gensim库来实现。

3)计算doc2vec相似度SIMdoc2vec(D1,D2)：

SIMdoc2vec(D1,D2)＝SIMcos(DOC2VECvec(D1),DOC2VECvec(D2))，其中SIMcos表示两个向量的余弦相似度，DOC2VECvec(D1)和DOC2VECvec(D2)分别表示对待对比文本D1以及候选文本D2进行doc2vec向量化。

DOC2VECvec(D)函数的作用是把一篇文本DOC2VEC向量化，它的输入是一篇文本，输出是一个向量。DOC2VECvec(D)由两个部分组成：第一部分确定参数，这一部分使用20万篇文本训练DOC2VEC模型，确定模型参数；第二部分生成向量，这一部分传入一篇文本，生成这篇文本对应的DOC2VEC向量，这个向量是用连续的数值对一段文本的分布式表示，该部分实现主要通过python中的gensim库来实现。

4)计算word2vec相似度SIMword2vec(D1,D2)：

SIMword2vec(D1,D2)＝SIMcos(WORD2VECvec(D1),WORD2VECvec(D2))，其中SIMcos表示计算两个向量的余弦相似度，WORD2VEC(D1)以及WORD2VEC(D2)分别表示对待对比文本D1以及候选文本D2进行word2vec向量化。

WORD2VECvec(D)函数的作用是把一篇文本WORD2VEC向量化，它的输入是一篇文本，输出是一个向量。WORD2VECvec(D)由两个部分组成：第一部分确定每个词的词向量，这一部分使用20万篇文本训练WORD2VEC模型，然后得到每个词的词向量；第二部分生成向量，这一部分传入一篇文本，生成这篇文本对应的WORD2VEC向量，这一部分首先获取该文本中每个词的词向量，然后对这些词向量各个维度求和取平均，最后用各个维度的平均值组成一个新的向量，用这个向量来表示该文本，该部分中WORD2VEC模型使用***开源的模型实现。

前四步中出现的SIMcos(vec1,vec2)，其具体计算方式是：

其中vec1、vec2分别表示两个向量，n表示向量的维度。

5)计算细粒度相似度Similarityi(D1,D2)：

Similarity(D1,D2)＝w1*SIMtfidf(D1,D2)+w2*SIMlda(D1,D2)+w3*SIMdoc2vec(D1,D2)+w4*SIMword2vec(D1,D2)；其中，w1、w2、w3、w4分别表示四种相似度最后在细粒度相似度中所占的权重，w1+w2+w3+w4＝1。

另外，w1、w2、w3、w4的确定方法是：将相似文本对集合S1进行精细标注产生相似文本对集合S2，其中相似的文本对标记为1，不相似的标记为0，然后选取使得相似文本对集合S2的AUC值最大的w1、w2、w3、w4，此时的w1、w2、w3、w4使得细粒度相似度对文本是否相似更具有区分度。

4、选出相似文本：

筛选出细粒度相似度超过相似判定阈值的候选文本，确定为相似文本。

其中，相似判定阈值的确定需要在相似文本对集合S2上计算细粒度相似度；再确定一个阈值，使得针对相似文本对集合S2相似性判定的准确率和召回率相对来说较高，达到一个平衡，或者也可以直接选取使得F1值最高的阈值作为相似判定阈值。

本发明中出现的如Jaccard相似度、tfidf、lda、word2vec、doc2vec、auc、F1等概念或方法都是机器学习中经常出现的概念和方法，参考相关文档即可知道其具体理论以及计算方式，本发明不再赘述，应可理解。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于相似度的文本查重方法，其步骤包括：

对待对比文本进行预处理；

2.根据权利要求1所述的方法，其特征在于，所述预处理包括对所述待对比文本进行分词处理和停用词过滤处理。

3.根据权利要求1所述的方法，其特征在于，所述粗粒度相似度是指所述待对比文本与所述候选文本的相同词的数量占二者总词量的比例。

4.根据权利要求1所述的方法，其特征在于，所述相似候选集阈值的确定方法是：从所述文本数据库中选取一定数量的文本，通过相似性标注产生相似文本对集合S1，计算该集合S1包含的相似文本对的Jaccard相似度，选取最小Jaccard相似度作为所述相似候选集阈值。

5.根据权利要求4所述的方法，其特征在于，所述相似判定阈值的确定方法是：将所述相似文本对集合S1进行精细标注产生相似文本对集合S2，在该集合S2中计算所包含的文本对的细粒度相似度，将使得针对该文本对的相似性判定的准确率和召回率取得一相对平衡的最高值或者使得该文本对的F1值取得最高值的阈值作为所述相似判定阈值。

6.根据权利要求5所述的方法，其特征在于，所述细粒度相似度等于所述TFIDF相似度、LDA相似度、doc2vec相似度和word2vec相似度与各自所占权重的乘积的加和；所述各权重值为从所述相似文本对集合S2中选取的最大AUC值。

7.根据权利要求1或5所述的方法，其特征在于，

计算所述TFIDF相似度的方法是：先分别对所述待对比文本和所述候选文本进行TFIDF向量化，获得向量；再计算该两个向量的余弦相似度，即为TFIDF相似度；

计算所述LDA相似度的方法是：先分别对所述待对比文本和所述候选文本进行LDA向量化，获得向量；再计算该两个向量的余弦相似度，即为LDA相似度；

计算所述doc2vec相似度的方法是：先分别对所述待对比文本和所述候选文本进行doc2vec向量化，获得向量；再计算该两个向量的余弦相似度，即为doc2vec相似度；

计算所述word2vec相似度的方法是：先分别对所述待对比文本和所述候选文本进行word2vec向量化，获得向量；再计算该两个向量的余弦相似度，即为word2vec相似度。

8.根据权利要求7所述的方法，其特征在于，所述余弦相似度是通过SIMcos(vec1,vec2)函数计算得到。

9.根据权利要求8所述的方法，其特征在于，所述TFIDF、LDA、doc2vec及word2vec的向量化所用的函数模型需通过从所述文本数据库中选取的一定数量的文本进行训练。

10.一种基于相似度的文本查重***，包括存储器和处理器，所述存储器存储计算机程序，所述程序被配置为由所述处理器执行，所述程序包括用于执行上述权利要求1-9任一权利要求所述方法的各步骤的指令。