CN104252445B

CN104252445B - 近似重复文档检测方法及装置

Info

Publication number: CN104252445B
Application number: CN201310260390.1A
Authority: CN
Inventors: 李国良; 冯建华; 魏建生
Original assignee: Tsinghua University; Huawei Technologies Co Ltd
Current assignee: Tsinghua University; Huawei Technologies Co Ltd
Priority date: 2013-06-26
Filing date: 2013-06-26
Publication date: 2017-11-24
Anticipated expiration: 2033-06-26
Also published as: CN104252445A; WO2014206241A1

Abstract

本发明涉及一种近似重复文档检测方法及装置，所述计算方法包括：对两个待检测文档分别进行切词处理，得到所述待检测文档各自的分词集合；计算两个所述分词集合中所有分词对的编辑相似度，每个所述分词对的两个分词分别来源于两个所述分词集合；在所述所有分词对中所述编辑相似度满足要求的分词对之间建立边，所述编辑相似度为对应分词对的边的权值，得到加权偶图；计算所述加权偶图的最大加权匹配值；利用所述最大加权匹配值，计算所述待检测文档之间的相似度。本发明提供的文档相似度计算方法、近似重复文档检测方法及装置，准确率高，能有效识别包含分词集编辑错误的近似重复文本，提高近似重复文档检测准确度，降低计算复杂度，优化计算效率。

Description

近似重复文档检测方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种近似重复文档检测方法及装置。

背景技术

随着电子设备的普及和互联网技术的发展，互联网用户数量持续增长，导致互联网数据量不断地膨胀。根据国际数据公司(International Data Corporation，IDC)的调研报告显示，现存约75％的数据为副本信息，即仅有25％的数据具有唯一性。因此，面对海量数据中重复或近似重复数据的检测技术尤为重要，它不仅能够减少去重***的存储和带宽等资源开销，还有助于提高数据清洗与分析***处理信息的质量。

海量文本数据的近似重复检测主要有两个方面的问题：一是准确度，由于数据输入和处理的管道不同，近似重复文档并不一定完全相同。例如同一条新闻，即使在内容上完全相同，当它在不同的网站中登出时，它们并不一定完全重合，而网络爬虫只能将信息完整抓取，而无法识别其中哪些内容是真正的新闻。如果直接采用文本完全匹配的方法，这两个实质相同的文档将会被视为不同的实体。二是效率，互联网技术发展带来的信息膨胀增加了从海量的数据中发掘重复内容的复杂度。针对某个文档集做数据去重，最直接的方法是枚举所有的文档对，判断它们是否为近似重复文档，而枚举文档对需对整个文档集做笛卡尔积，从而显著增加计算复杂度。例如，给定两个大小为M和N的文档集，如果需要查找其中重复的文档对，一共需要枚举M×N个文档对。因此，有必要设计合适的算法来减少需要匹配的内容和提高匹配速度。

现有的相似度计算方法大体可以分为两类：基于集合的相似度计算方法与基于字符串的相似度计算方法。基于集合的相似度计算方法将文档视为分词的集合，直接通过计算集合间的相似度来判断两个文档是否相似。基于字符串的相似度计算方法将文档视为一个完整的字符串来衡量它们之间的相似程度，典型的度量方法就是编辑距离(EditDistance)。编辑距离将一个字符串变为另一个字符串所需的最少的元编辑操作(***、删除、替换)作为衡量两个字符串之间相似度的标准，对应的编辑次数就是编辑距离。

然而，现有基于集合的相似度计算方法无法感知文本在分词级别的编辑相似度，当在分词级别发生编辑错误时，基于集合的相似度函数会将两个同源的分词视为不同的实例，从而导致最终得到的文档相似度小于真实值，影响检测准确度。而基于字符串的相似度计算方法计算复杂度较高且准确度易受分词顺序的影响，互联网数据具有海量性和交互性，编辑错误广泛存在于文档的产生和传播过程中，导致编辑相似度低于实际值，影响检测准确度。

发明内容

本发明的目的是提供一种文档相似度计算方法、近似重复文档检测方法及装置，能有效识别包含分词级编辑错误的近似重复文本，提高近似重复文档检测准确度，降低计算复杂度，优化计算效率。

为实现上述目的，本发明第一方面提供了一种文档相似度计算方法，所述方法包括：

对两个待检测文档分别进行切词处理，得到所述待检测文档各自的分词集合；

计算两个所述分词集合中所有分词对的编辑相似度，每个所述分词对的两个分词分别来源于两个所述分词集合；

在所述所有分词对中所述编辑相似度满足要求的分词对之间建立边，所述编辑相似度为对应分词对的边的权值，得到加权偶图；

计算所述加权偶图的最大加权匹配值；

利用所述最大加权匹配值，计算所述待检测文档之间的相似度。

结合第一方面，在第一方面的第一种可能的实施方式中，所述计算加权偶图的最大加权匹配值，包括：

在所述加权偶图中找到权值之和最大且不共顶点的边集，将所述权值之和最大且不共顶点的边集的权值之和作为所述加权偶图的最大加权匹配值。

结合第一方面，在第一方面的第二种可能的实施方式中，所述利用所述最大加权匹配值，计算所述待检测文档之间的相似度，包括：

利用所述最大加权匹配值，根据以下所列任一公式，计算所述待检测文档之间的相似度：

F_δ(s₁,s₂)＝f_δ(T₁,T₂)/(|T₁|+|T₂|-f_δ(T₁,T₂))；

或者，F_δ(s₁,s₂)＝f_δ(T₁,T₂)/(|T₁|×|T₂|)^1/2；

或者，F_δ(s₁,s₂)＝2×f_δ(T₁,T₂)/(|T₁|+|T₂|)；

其中，F_δ(s₁,s₂)表示待检测文档s₁,s₂之间的相似度，f_δ(T₁,T₂)表示待检测文档s₁,s₂对应的分词集合T₁,T₂的加权偶图的最大加权匹配值，|T₁|表示分词集合T₁的基数，|T₂|表示分词集合T₂的基数。

结合第一方面，在第一方面的第三种可能的实施方式中，所述编辑相似度满足要求包括：所述编辑相似度大于或等于预设编辑相似度阈值。

第二方面，本发明还提供了一种近似重复文档检测方法，所述方法包括：

对各待检测文档进行切词处理，得到所述各待检测文档各自的分词集合；

分别将同一待检测文档对应的分词集合中的各分词划分为长度小于所述分词的子串，利用所述子串形成所述分词的签名集合；

将同一待检测文档对应的分词集合中所有分词的签名集合合并，生成所述待检测文档的文档签名；

对所述文档签名建立反向索引，将出现在同一子串对应的索引表项中的两个分词集合对应的文档配对成文档对并加入候选集中；

计算所述候选集中文档对的相似度，将所述相似度满足要求的文档对识别为近似重复文档。

结合第二方面，在第二方面的第一种可能的实施方式中，在所述对各待检测文档进行切词处理之后，还包括：

对切词处理得到的分词进行编号并记录分词编号，所述分词编号表示该分词在所述待检测文档中出现的顺序；

所述将同一待检测文档对应的分词集合中所有分词的签名集合合并，生成所述待检测文档的文档签名，包括：

将所述同一检测文档对应的分词集合中所有分词的签名集合合并，并记录每个子串所在的分词编号；

对所述合并后的签名集合中的各子串进行排序，将满足要求的子串组成所述待检测文档的文档签名。

结合第二方面的第一种可能的实施方式，在第二方面的第二种可能的实施方式中，对所述合并后的签名集合中的各子串进行排序，将满足要求的子串组成所述待检测文档的文档签名，包括：

对所述合并后的签名集合中的各子串进行排序；

从后往前删除所述排序后的签名集合中的子串，并采用数据结构表记录已删除子串对应的分词编号；

如果被删除的子串对应的分词编号未在所述数据结构表中出现过，则将其加入所述数据结构表中；

当所述数据结构表中的元素个数达到M时，停止删除，所述M为预设个数阈值；

将剩余的子串组成所述待检测文档的文档签名。

结合第二方面，在第二方面的第三种可能的实施方式中，分别将同一待检测文档对应的分词集合中的各分词划分为长度小于所述分词的子串，包括：

对所述分词集合中的每个分词，采用q元法q-gram划分得到原分词中所有长度为q的连续子串。

结合第二方面的第三种可能的实施方式，在第二方面的第四种可能的实施方式中，利用所述子串形成所述分词的签名集合，包括：

对所述连续子串排序，保留前N个子串，其中N为预设正整数；

利用所述保留的子串形成所述分词的签名集合。

结合第二方面，在第二方面的第五种可能的实施方式中，所述计算所述候选集中文档对的相似度，包括：

计算所述候选集中文档对的两个分词集合T₁,T₂中所有分词对(t_1,i，t_2,j)的编辑相似度，其中，t_1,i∈T₁、t_2,j∈T₂，1≤i≤|T1|、1≤j≤|T2|、|T1|和|T2|分别为分词集合T₁与T₂的基数；

在所述编辑相似度满足要求的分词对之间建立边，所述编辑相似度为对应分词对的边的权值，得到加权偶图；

计算所述加权偶图的最大加权匹配值f_δ(T₁,T₂)；

利用所述最大加权匹配值f_δ(T₁,T₂)，计算所述分词集合T₁,T₂对应的文档s₁,s₂之间的相似度F_δ(s₁,s₂)。

结合第二方面的第五种可能的实施方式，在第二方面的第六种可能的实施方式中，所述计算加权偶图的最大加权匹配值f_δ(T₁,T₂)，包括：

在所述加权偶图中找到权值之和最大且不共顶点的边集，将所述权值之和最大且不共顶点的边集的权值之和作为所述加权偶图的最大加权匹配值f_δ(T₁,T₂)。

结合第二方面的第五种可能的实施方式，在第二方面的第七种可能的实施方式中，所述利用最大加权匹配值f_δ(T₁,T₂)，计算所述分词集合T₁,T₂对应的文档s₁,s₂之间的相似度F_δ(s₁,s₂)，包括：

利用所述最大加权匹配值f_δ(T₁,T₂)，根据以下所列任一公式，计算所述分词集合T₁,T₂对应的文档s₁,s₂之间的相似度F_δ(s₁,s₂)：

F_δ(s₁,s₂)＝f_δ(T₁,T₂)/(|T₁|+|T₂|-f_δ(T₁,T₂))；

或者，F_δ(s₁,s₂)＝f_δ(T₁,T₂)/(|T₁|×|T₂|)^1/2；

或者，F_δ(s₁,s₂)＝2×f_δ(T₁,T₂)/(|T₁|+|T₂|)；

其中，F_δ(s₁,s₂)表示待检测文档s₁,s₂之间的相似度，f_δ(T₁,T₂)表示所述分词集合T₁,T₂的加权偶图的最大加权匹配值，|T₁|表示分词集合T₁的基数，|T₂|表示分词集合T₂的基数。

结合第二方面的第五种可能的实施方式，在第二方面的第八种可能的实施方式中，所述编辑相似度满足要求包括：所述编辑相似度大于或等于预设编辑相似度阈值。

结合第二方面，在第二方面的第九种可能的实施方式中，在计算所述候选集中文档对的相似度之前，还包括：

采用剪枝策略对所述候选集中的文档对进行过滤；

所述计算所述候选集中文档对的相似度，包括：

计算过滤后的所述候选集中的文档对的相似度。

结合第二方面的第九种可能的实施方式，在第二方面的第十种可能的实施方式中，所述采用剪枝策略对所述候选集中的文档对进行过滤，包括：

依次取出所述候选集中的文档对，评估文档之间的相似度的上限值；

如果所述上限值小于预设相似度阈值τ，则将对应的文档对剪枝。

第三方面，本发明还提供了一种文档相似度计算装置，所述装置包括：

分词模块，用于对两个待检测文档分别进行切词处理，得到所述待检测文档各自的分词集合；

第一计算模块，用于计算所述分词模块得到的两个所述分词集合中所有分词对的编辑相似度，每个所述分词对的两个分词分别来源于两个所述分词集合；

加权偶图建立模块，用于在所述第一计算模块得到的所述编辑相似度满足要求的分词对之间建立边，所述编辑相似度为对应分词对的边的权值，得到加权偶图；

第二计算模块，用于计算所述加权偶图建立模块得到的所述加权偶图的最大加权匹配值；

第三计算模块，用于利用所述第二计算模块得到的所述最大加权匹配值，计算所述待检测文档之间的相似度。

结合第三方面，在第三方面的第一种可能的实施方式中，所述第二计算模块具体用于在所述加权偶图建立模块得到的所述加权偶图中找到权值之和最大且不共顶点的边集，将所述权值之和最大且不共顶点的边集的权值之和作为所述加权偶图的最大加权匹配值。

结合第三方面，在第三方面的第二种可能的实施方式中，所述第三计算模块具体用于利用所述最大加权匹配值，根据以下所列任一公式，计算所述待检测文档之间的相似度：

F_δ(s₁,s₂)＝f_δ(T₁,T₂)/(|T₁|+|T₂|-f_δ(T₁,T₂))；

或者，F_δ(s₁,s₂)＝f_δ(T₁,T₂)/(|T₁|×|T₂|)^1/2；

或者，F_δ(s₁,s₂)＝2×f_δ(T₁,T₂)/(|T₁|+|T₂|)；

结合第三方面，在第三方面的第三种可能的实施方式中，所述编辑相似度满足要求包括：所述编辑相似度大于或等于预设编辑相似度阈值。

第四方面，本发明还提供了一种近似重复文档检测装置，所述装置包括：

分词处理模块，用于对各待检测文档进行切词处理，得到所述各待检测文档各自的分词集合；

分串处理模块，用于分别将所述分词模块得到的同一待检测文档对应的分词集合中的各分词划分为长度小于所述分词的子串，利用所述子串形成所述分词的签名集合；

文档签名生成模块，用于将同一待检测文档对应的分词集合中所有分词的签名集合合并，生成所述待检测文档的文档签名；

索引模块，用于对所述文档签名建立反向索引，将出现在同一子串对应的索引表项中的两个分词集合对应的文档配对成文档对并加入候选集中；

计算模块，用于计算所述候选集中文档对的相似度；

判断模块，用于将所述计算模块计算得到的所述相似度满足要求的文档对识别为近似重复文档。

结合第四方面，在第四方面的第一种可能的实施方式中，所述分词处理模块还用于在对各待检测文档进行切词处理之后，对切词处理得到的分词进行编号并记录分词编号，所述分词编号表示该分词在待检测文档中出现的顺序；

所述文档签名生成模块具体包括：合并单元和排序单元；

所述合并单元用于将同一待检测文档对应的分词集合中所有分词的签名集合合并，并记录每个子串所在的分词编号；

所述排序单元用于对所述合并后的签名集合中的各子串进行排序，将满足要求的子串组成所述待检测文档的文档签名。

结合第四方面的第一种可能的实施方式，在第四方面的第二种可能的实施方式中，所述排序单元在对所述合并后的签名集合中的各子串进行排序之后，还用于从后往前删除所述排序后的签名集合中的子串，并采用数据结构表记录已删除子串对应的分词编号；如果被删除的子串对应的分词编号未在所述数据结构表中出现过，则将其加入所述数据结构表中；当所述数据结构表中的元素个数达到M时，停止删除，所述M为预设个数阈值；并将剩余的子串组成所述待检测文档的文档签名。

结合第四方面，在第四方面的第三种可能的实施方式中，所述分串处理模块具体用于对所述分词集合中的每个分词，采用q元法q-gram划分得到原分词中所有长度为q的连续子串。

结合第四方面的第三种可能的实施方式，在第四方面的第四种可能的实施方式中，所述分串处理模块还用于对所述连续子串排序，保留前N个子串，其中N为预设正整数；并利用所述保留的子串形成所述分词的签名集合。

结合第四方面，在第四方面的第五种可能的实施方式中，所述计算模块包括：

第一计算单元，用于计算所述索引模块得到的所述候选集中文档对的两个分词集合T₁,T₂中所有分词对(t_1,i，t_2,j)的编辑相似度，其中，t_1,i∈T₁、t_2,j∈T₂，1≤i≤|T1|、1≤j≤|T2|、|T1|和|T2|分别为分词集合T₁与T₂的基数；

加权偶图建立单元，用于在所述第一计算单元得到的所述编辑相似度满足要求的分词对之间建立边，所述编辑相似度为对应分词对的边的权值，得到加权偶图；

第二计算单元，用于计算所述加权偶图建立单元得到的所述加权偶图的最大加权匹配值f_δ(T₁,T₂)；

第三计算单元，用于利用所述第二计算单元得到的所述最大加权匹配值f_δ(T₁,T₂)，计算所述分词集合T₁,T₂对应的文档s₁,s₂之间的相似度F_δ(s₁,s₂)。

结合第四方面的第五种可能的实施方式，在第四方面的第六种可能的实施方式中，所述第二计算单元具体用于在所述加权偶图建立单元得到的所述加权偶图中找到权值之和最大且不共顶点的边集，将所述权值之和最大且不共顶点的边集的权值之和作为所述加权偶图的最大加权匹配值f_δ(T₁,T₂)。

结合第四方面的第五种可能的实施方式，在第四方面的第七种可能的实施方式中，所述第三计算单元具体用于利用所述最大加权匹配值f_δ(T₁,T₂)，根据以下所列任一公式，计算所述分词集合T₁,T₂对应的文档s₁,s₂之间的相似度F_δ(s₁,s₂)：

F_δ(s₁,s₂)＝f_δ(T₁,T₂)/(|T₁|+|T₂|-f_δ(T₁,T₂))；

或者，F_δ(s₁,s₂)＝f_δ(T₁,T₂)/(|T₁|×|T₂|)^1/2；

或者，F_δ(s₁,s₂)＝2×f_δ(T₁,T₂)/(|T₁|+|T₂|)；

结合第四方面的第五种可能的实施方式，在第四方面的第八种可能的实施方式中，所述编辑相似度满足要求包括：所述编辑相似度大于或等于预设编辑相似度阈值。

结合第四方面，在第四方面的第九种可能的实施方式中，所述装置还包括：

过滤模块，所述过滤模块与所述计算模块相连接，用于采用剪枝策略对所述索引模块得到的所述候选集中的文档对进行过滤；

所述计算模块计算经过所述过滤模块过滤后的所述候选集中的文档对的相似度。

结合第四方面的第九种可能的实施方式，在第四方面的第十种可能的实施方式中，所述过滤模块具体用于依次取出所述索引模块得到的所述候选集中的文档对，评估文档之间的相似度的上限值；如果所述上限值小于预设相似度阈值τ，则将对应的文档对剪枝。

本发明提供的文档相似度计算方法、近似重复文档检测方法及装置，将分词的编辑相似度用于计算文档相似度，能有效识别包含分词级编辑错误的近似重复文本，提高近似重复文档检测准确度，降低计算复杂度，优化计算效率。

附图说明

图1为本发明实施例一提供的文档相似度计算方法流程图；

图2为本发明实施例二提供的近似重复文档检测方法流程图；

图3为本发明实施例二提供的分词集合T₁、T₂对应的加权偶图的示意图；

图4为本发明实施例三提供的文档相似度计算装置示意图；

图5为本发明实施例四提供的近似重复文档检测装置示意图；

图6为本发明实施例四提供的计算模块的示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明实施例提供的文档相似度计算方法、近似重复文档检测方法及装置，适用于计算机***的海量文本数据的近似重复检测，尤其适用于互联网文本数据的清洗和分析***，其检测的文档可以但不局限于包括文本数据文件、互联网应用***日志记录或数据库中的文本记录等。

实施例一

图1是本实施例提供的文档相似度计算方法流程图，如图1所示，本发明的文档相似度计算方法包括：

S101、对两个待检测文档分别进行切词处理，得到所述待检测文档各自的分词集合。

对两个待检测文档s₁,s₂分别进行切词处理，得到分词集合T₁,T₂。

S102、计算两个所述分词集合中所有分词对的编辑相似度。

其中，每个所述分词对的两个分词分别来源于两个所述分词集合。

具体的，以分词集合T₁与T₂中所有分词t_1,i∈T₁、t_2,j∈T₂为顶点建立偶图(Bipartite Graph)，其中1≤i≤|T1|、1≤j≤|T2|、|T1|和|T2|分别为分词集合T₁与T₂的基数，计算所有分词对(t_1,i,t_2,j)的编辑相似度。

如果将文档视为一个完整的字符串，可以通过编辑距离来衡量文档之间的相似程度。编辑距离是指将一个字符串变为另一个字符串所需的最少的元编辑操作(***、删除、替换)作为衡量两个字符串之间相似度的标准，对应的编辑次数就是编辑距离。不难发现，所需编辑操作越少，编辑距离越小，字符串越相似。编辑相似度是对编辑距离进行归一化处理，具体可以为：eds(t_1,i,t_2,j)＝1-ed(t_1,i,t_2,j)/max{|t_1,i|,|t_2,j|}，其中eds(t_1,i,t_2,j)和ed(t_1,i,t_2,j)分别表示分词t_1,i、t_2,j之间的编辑相似度(edit similarity)与编辑距离(edit distance)，|t_1,i|、|t_2,j|为两个分词的字符串长度，max{|t_1,i|,|t_2,j|}函数表示取|t_1,i|和|t_2,j|之中的较大值。

S103、在所述编辑相似度满足要求的分词对之间建立边，所述编辑相似度为对应分词对的边的权值，得到加权偶图。

编辑相似度满足要求包括：所述编辑相似度大于或等于预设编辑相似度阈值。

如果eds(t_1,i,t_2,j)≥δ，其中δ为预设编辑相似度阈值，则在t_1,i、t_2,j之间建立边并将eds(t_1,i,t_2,j)赋为边的权值，从而得到加权偶图G_weight。根据编辑相似度eds(t_1,i,t_2,j)与编辑距离ed(t_1,i,t_2,j)之间的关系可知，eds(t_1,i,t_2,j)≥δ成立的充要条件为ed(t_1,i,t_2,j)≤ε＝(1-δ)×max{|t_1,i|,|t_2,j|}，其中ε为δ对应的编辑距离阈值。

S104、计算所述加权偶图的最大加权匹配值。

具体的，在加权偶图G_weight中找到一个不共顶点的边集，且该边集与其他所有不共顶点的边集相比，其权值之和为最大，则称该权值之和为G_weight的最大加权匹配，记为f_δ(T₁,T₂)。根据0≤eds(t_1,i,t_2,j)≤1，可知，0≤f_δ(T₁,T₂)≤min{|T₁|,|T₂|}，其中min{|T₁|,|T₂|}表示取集合{|T₁|,|T₂|}中的最小值，|T₁|表示分词集合T₁的基数，即分词数量，|T₂|表示分词集合T₂的基数。

S105、利用所述最大加权匹配值，计算所述待检测文档之间的相似度。

利用最大加权匹配值，根据Jaccard公式或者余弦相似度公式或者距离公式等，计算所述待检测文档之间的相似度。具体为：

Jaccard相似度公式：F_δ(s₁,s₂)＝f_δ(T₁,T₂)/(|T₁|+|T₂|-f_δ(T₁,T₂))。

余弦相似度公式：F_δ(s₁,s₂)＝f_δ(T₁,T₂)/(|T₁|×|T₂|)^1/2。

DICE距离公式：F_δ(s₁,s₂)＝2×f_δ(T₁,T₂)/(|T₁|+|T₂|)。

各相似度函数的值域均为[0,1]，相似度越接近于1则表示两个文档越相似。

本发明提供的文档相似度计算方法，由于在计算f_δ(T₁,T₂)时考虑了基于字符串的相似度，因而得到的相似度函数能够结合基于字符串的相似度函数和基于集合的相似度函数的优势，准确率高。

实施例二

图2是本实施例提供的近似重复文档检测方法流程图，如图2所示，本发明的近似重复文档检测方法包括：

S201、对各待检测文档进行切词处理，得到所述各待检测文档各自的分词集合。

采用现有的切词方法，例如，通过识别特定的非英文字符(如标点、数字等)的切词方法、正向最大匹配法等等，对各待检测文档进行切词处理，得到分词集合。

可选的，对切词处理得到的分词进行编号并记录分词编号，所述分词编号表示该分词在待检测文档中出现的顺序。

例如，对于待处理文档集分别为S₁、S₂，对于任意s₁∈S₁、s₂∈S₂，通过识别特定的非英文字符(如标点、数字等)或其他切词方法对其进行切词处理，得到分词集合T₁＝{t_1,1,t_1,2,…,t_1,m}、T₂＝{t_2,1,t_2,2,…,t_2,n}，同时为每个出现在文档字符串中的分词编号。

S202、分别将同一待检测文档对应的分词集合中的各分词划分为长度小于所述分词的子串，利用所述子串形成所述分词的签名集合。

对所述分词集合中的每个分词，可以但不限于采用q元法q-gram划分得到原分词中所有长度为q的连续子串。对于所有t_1,i∈T₁、t_2,j∈T₂(1≤i≤|T1|、1≤j≤|T2|)，|T1|和|T2|分别为分词集合T₁与T₂的基数，将其划分为长度更短的子串，得到集合R_1,i、R_2,j，例如，通过q-gram划分获得原分词中所有长度为q的连续子串。举个例子，对于分词Token＝"a₁a₂…a_i…a_p"，其对应的2-gram集合为{a₁a₂,a₂a₃,…,a_ia_(i+1),…,a_(p-1)a_p}，3-gram集合为{a₁a₂a₃,a₂a₃a₄,…,a_(i-1)a_ia_(i+1),…,a_(p-2)a_(p-1)a_p}。

可选的，为了提高处理效率，可以根据子串的切分策略，选择适当的过滤方法来删除R_1,i、R_2,j中的部分子串，以精简子串集合和减少存储开销。利用所述子串形成所述分词的签名集合，具体包括：

对所述连续子串排序，保留前N个子串，其中N为预设正整数；利用保留的子串形成所述分词的签名集合。

若采用q-gram子串切分策略，可将R_1,i、R_2,j中的子串按照字典序排序，只保留前N＝(q×ε′+1)个子串，精简后的子串集合称为分词签名，记为R_1,i′、R_2,j′。其中，ε′是δ对应的编辑距离阈值ε＝(1-δ)×max{|t₁|,|t₂|}的估值，其定义方法为δ为预设编辑相似度阈值，|t₁|为分词t₁的字符串长度，为向下取整运算符。

S203、将同一待检测文档对应的分词集合中所有分词的签名集合合并，生成所述待检测文档的文档签名。包括：

第1步、将所述分词集合中所有分词的签名集合合并，并记录每个子串所在的分词编号。

第2步、对所述合并后的签名集合中的各子串进行排序，将满足要求的子串组成所述待检测文档的文档签名。

具体包括：对所述合并后的签名集合中的各子串进行排序；从后往前删除所述排序后的签名集合中的子串，并采用数据结构表记录已删除子串对应的分词编号；如果被删除的子串对应的分词编号未在所述数据结构表中出现过，则将其加入所述数据结构表中；当所述数据结构表中的元素个数达到M时，M为预设个数阈值，停止删除；将剩余的子串组成所述待检测文档的文档签名。

首先，取SIG_δ(T₁)＝∪_1≤i≤mR_1,i′、SIG_δ(T₂)＝∪_1≤j≤nR_1,j′，将SIG_δ(T₁)与SIG_δ(T₂)中的子串排序(如：字典序、逆文档频率idf等)，并记录每个子串所属分词的编号。然后，从后往前删除SIG_δ(T₁)中的子串，并采用哈希表(或其他数据结构)记录已删除子串对应的分词编号。若当前删除的子串对应的分词编号未在哈希表中出现过，则将其加入哈希表中，当哈希表中元素个数达到M时，停止删除。其中，M为预设个数阈值，在本实施例中，θ′是最大加权匹配阈值θ的估值，其计算方法为θ′＝τ×|T₁|≤θ，τ为预设相似度阈值，|T₁|为分词集合T₁的基数，为向上取整运算符。

由于θ′仅依赖于|T₁|，此处用其取代θ有利于提高精简SIG_δ(T₁)时的效率。用同样的方法对SIG_δ(T₂)进行处理，并把精简后的集合sig_δ(T₁)、sig_δ(T₂)分别作为分词集合T₁和T₂对应文档s₁、s₂的文档签名。

S204、对所述文档签名建立反向索引，将出现在同一子串对应的索引表项中的两个分词集合对应的文档配对成文档对并加入候选集中。

对文档签名建立反向索引，每个子串对应至少一个它出现过的分词集合，若两个分词集出现在同一个子串对应的索引表项中，将其配对并加入候选集中。

对于没有出现在同一子串对应的索引表项中的两个分词集合，即则f_δ(T₁,T₂)<θ′≤θ，即F_δ(s₁,s₂)<τ，说明对应的文档s₁和s₂不满足相似度阈值筛查条件；相反，若则可将对应的s₁和s₂列为候选相似文档对，加入候选集中。

S205、计算所述候选集中文档对的相似度，将所述相似度满足要求的文档对识别为近似重复文档。包括：

第1步、计算所述候选集中文档对的两个分词集合T₁,T₂中所有分词对(t_1,i，t_2,j)的编辑相似度，其中，t_1,i∈T₁、t_2,j∈T₂，1≤i≤|T1|、1≤j≤|T2|、|T1|和|T2|分别为分词集合T₁与T₂的基数。

具体的，以分词集合T₁与T₂中所有分词t_1,i∈T₁、t_2,j∈T₂为顶点建立偶图(Bipartite Graph)，其中1≤i≤|T1|、1≤j≤|T2|、|T1|和|T2|分别为分词集合T₁与T₂的基数，计算所有分词对(t_1,i,t_2,j)的编辑相似度。编辑相似度是对编辑距离进行归一化处理，具体可以为：eds(t_1,i,t_2,j)＝1-ed(t_1,i,t_2,j)/max{|t_1,i|,|t_2,j|}，其中eds(t_1,i,t_2,j)和ed(t_1,i,t_2,j)分别表示分词t_1,i、t_2,j之间的编辑相似度(edit similarity)与编辑距离(editdistance)，|t_1,i|、|t_2,j|为两个分词的字符串长度，max{|t_1,i|,|t_2,j|}函数表示取|t_1,i|和|t_2,j|之中的较大值。

第2步、在所述编辑相似度满足要求的分词对之间建立边，所述编辑相似度为对应分词对的边的权值，得到加权偶图。

如果eds(t_1,i,t_2,j)≥δ，其中δ为预设编辑相似度阈值，则在t_1,i、t_2,j之间建立边并将eds(t_1,i,t_2,j)赋为边的权值，从而得到加权偶图G_weight。根据编辑相似度eds(t_1,i,t_2,j)与编辑距离ed(t_1,i,t_2,j)之间的关系可知，eds(t_1,i,t_2,j)≥δ成立的充要条件为ed(t_1,i,t_2,j)≤ε＝(1-δ)×max{|t_1,i|,|t_2,j|}，其中ε为预设编辑距离阈值。

第3步、计算所述加权偶图的最大加权匹配值f_δ(T₁,T₂)。

在所述加权偶图中找到不共顶点的边集，将所有边的权值之和最大的边集作为所述加权偶图的最大加权匹配值f_δ(T₁,T₂)。

第4步、利用所述最大加权匹配值f_δ(T₁,T₂)，计算所述分词集合T₁,T₂对应的文档s₁,s₂之间的相似度F_δ(s₁,s₂)。

DICE距离公式：F_δ(s₁,s₂)＝2×f_δ(T₁,T₂)/(|T₁|+|T₂|)。

各相似度函数的值域均为[0,1]，相似度越接近于1则表示两个文档集合越相似。

将所述相似度满足要求的文档对识别为近似重复文档，包括：将文档对相似度F_δ(s₁,s₂)大于预设文档相似度阈值的文档对识别为近似重复文档。

可选的，在S205之前，还可以包括：采用剪枝策略对所述候选集中的文档对进行过滤；则在S205中计算过滤后的所述候选集中的文档对的相似度。具体包括：依次取出所述候选集中的文档对，评估文档之间的相似度的上限值；如果所述上限值小于预设相似度阈值τ，则将对应的文档对剪枝。

为候选集中每一对候选分词集合(T₁,T₂)建立加权偶图，对分词集合T₁或T₂中的每个顶点，选取与其关联的权值最大的边，将所有被选取边的权值累加作为最大加权匹配的估值f_δ′(T₁,T₂)，若f_δ′(T₁,T₂)<θ，则f_δ(T₁,T₂)≤f_δ′(T₁,T₂)<θ且F_δ(s₁,s₂)<τ，即相应的文档对(s₁,s₂)不满足文档近似重复的阈值条件，直接将(T₁,T₂)从候选集中删除；反之，准确计算(T₁,T₂)的最大加权匹配f_δ(T₁,T₂)，然后通过S205进一步计算F_δ(s₁,s₂)并将相似度大于或等于τ的文档对(s₁,s₂)判断为近似重复文档，添加到结果集R，同时从候选集中删除(T₁,T₂)。

举个例子，设有两个文档s₁＝“trcy macgrady mvp”和s₂＝“mvp tracy mcgrady”分别属于两个待检测的文档集，预先设定的编辑相似度阈值δ＝0.8和文档相似度阈值τ＝0.75。

第1步，对待检测文档s₁、s₂进行切词处理并对各文档的分词进行编号，s₁、s₂切词后可得到分词集合T₁＝{trcy¹,macgrady²,mvp³}和T₂＝{mvp¹,tracy²,mcgrady³}。

第2步，生成每个分词的签名集合。分词签名由分词所包含的子串构成，根据需要，可以选择不同的方式来划分子串。在具体实施中，对于分词集中的每个分词，求得其q-gram子串的签名集合，并保留前(q×ε′+1)个子串，其中以2-gram子串切分为例，mcgrady对应的2-gram集合按字典序排序可得到{ad,cg,dy,gr,mc,ra}，保留前2×1+1＝3个子串，即sig_δ(mcgrady)＝{ad,cg,dy}。同理可以得到其他分词处理结果：sig_δ(mvp)＝{mv}，sig_δ(tracy)＝{ac,cy,ra}，sig_δ(trcy)＝{cy,rc,tr}，sig_δ(macgrady)＝{ac,cg,ad}。

第3步，生成文档签名。将同一个文档中所有分词的签名集合合并，同时记录它们所在的分词编号。例如，{ad,cg,dy}是由原来分词集合T₂中第三个分词“mcgrady”分解得到，因此将其加入SIG_δ(T₂)时，标记它的来源，即{ad³,cg³,dy³}。通过上述步骤，可以得到SIG_δ(T₁)＝{ac²,ad²,cg²,cy¹,mv³,rc¹,tr¹}，SIG_δ(T₂)＝{ac²,ad³,cg³,cy²,dy³,mv¹,ra²}。然后，将每个分词集合对应的文档签名按字典序排序，从后往前删除，直至被删除的子串出现在个不同的分词中。θ′的值通过相似度的阈值τ来确定，已指定τ＝0.75，则可计算得到θ′＝0.75×3＝2.25，对应的在SIG_δ(T₁)中，删除{cy¹,mv³,tr¹,rc¹}得到文档签名sig_δ(T₁)；同样，在SIG_δ(T₂)中，删除{mv¹,ra²}得到文档签名sig_δ(T₂)。

第4步，对文档签名建立反向索引，每个子串对应至少一个它出现过的分词集合，过滤低相似度文档对，例如：{ac:T₁,T₂；ad:T₁,T₂；cg:T₁,T₂；cy:T₂；dy:T₂}。若两个分词集合出现在同一个子串对应的索引表项中，将其配对并加入候选集中。在此步骤中，(T₁,T₂)将被识别为高相似度文档对并加入到候选集中。

第5步，筛查高相似度文档对，计算文档对的相似度。处理完所有的索引表项后，依次取出候选集中的文档对，并评估文档之间的相似度。在计算准确的相似度之前，先通过一定的策略估计二者之间相似度的上界。若该上界小于阈值τ，则两个文档之间的实际相似度不可能大于τ。以文档对(s₁,s₂)为例，具体计算方法如下：在对应的加权偶图中，对于属于同一分词集(T₁或T₂)中的每个顶点，选取与它相关联的权值最大的边，将其累加得到f_δ′(T₁,T₂)，以此作为最大加权匹配的估值并用于估算s₁与s₂之间的相似度。这种方法忽略了相似度计算中每个顶点只出现一次的规则，因而得到的估计值大于实际的相似度，即为实际相似度的一个上界。如果该上界不满足给定的阈值条件，则将对应的文档对剪枝；否则，计算准确的相似度，判断其是否满足阈值条件，若满足则判断为近似重复文档，加入结果集R。延续上面的例子，与T₁中“trcy”相似度最大的T₂中的分词为“tracy”，编辑距离ed(“trcy”,“tracy”)＝1，编辑相似度eds(“trcy”,“tracy”)＝1－1/max{4,5}＝0.8≥δ，同理，eds(“macgrady”,“mcgrady”)＝0.875≥δ，eds(“mvp”,“mvp”)＝1≥δ，其它分词对之间的编辑相似度均小于δ。最终可得T₁、T₂之间的最大加权匹配为f_δ(T₁,T₂)＝0.8+0.875+1＝2.675，图3给出了(T₁,T₂)对应的加权偶图。根据f_δ(T₁,T₂)进一步计算T₁、T₂之间的相似度为F_δ(T₁,T₂)＝2.675/(3+3－2.675)≈0.791>τ，因而s₁与s₂是近似重复文档。

本发明提供的近似重复文档检测方法利用“先过滤、后检查”的近似重复文档检测算法，能够在提高近似重复文档检测准确度的同时优化计算效率，因而适用于海量文本数据的近似重复检测。

以上是对本发明所提供的文档相似度计算方法和近似重复文档检测方法进行的详细描述，下面对本发明提供的文档相似度计算装置和近似重复文档检测装置进行详细描述。

实施例三

图4是本实施例提供的文档相似度计算装置示意图，如图4所示，本发明的文档相似度计算装置包括：分词模块401、第一计算模块402、加权偶图建立模块403、第二计算模块404和第三计算模块405。

分词模块401用于对两个待检测文档分别进行切词处理，得到所述待检测文档各自的分词集合。

分词模块401对两个待检测文档s₁,s₂分别进行切词处理，得到分词集合T₁,T₂。

第一计算模块402用于计算分词模块401得到的两个所述分词集合中所有分词对的编辑相似度。

具体的，第一计算模块402以分词集合T₁与T₂中所有分词t_1,i∈T₁、t_2,j∈T₂为顶点建立偶图(Bipartite Graph)，其中1≤i≤|T1|、1≤j≤|T2|、|T1|和|T2|分别为分词集合T₁与T₂的基数，计算所有分词对(t_1,i,t_2,j)的编辑相似度。

编辑相似度是对编辑距离进行归一化处理，具体可以为：eds(t_1,i,t_2,j)＝1-ed(t_1,i,t_2,j)/max{|t_1,i|,|t_2,j|}，其中eds(t_1,i,t_2,j)和ed(t_1,i,t_2,j)分别表示分词t_1,i、t_2,j之间的编辑相似度(edit similarity)与编辑距离(edit distance)，|t_1,i|、|t_2,j|为两个分词字符串长度，max{|t_1,i|,|t_2,j|}函数表示取|t_1,i|和|t_2,j|之中的较大值。

加权偶图建立模块403用于在第一计算模块402得到的所述编辑相似度满足要求的分词对之间建立边，所述编辑相似度为对应分词对的边的权值，得到加权偶图。

所述编辑相似度满足要求包括：所述编辑相似度大于或等于预设编辑相似度阈值。

如果eds(t_1,i,t_2,j)≥δ，其中δ为预设编辑相似度阈值，加权偶图建立模块403则在t_1,i、t_2,j之间建立边并将eds(t_1,i,t_2,j)赋为边的权值，从而得到加权偶图G_weight。根据编辑相似度eds(t_1,i,t_2,j)与编辑距离ed(t_1,i,t_2,j)之间的关系可知，eds(t_1,i,t_2,j)≥δ成立的充要条件为ed(t_1,i,t_2,j)≤ε＝(1-δ)×max{|t_1,i|,|t_2,j|}，其中ε为δ对应的编辑距离阈值。

第二计算模块404用于计算加权偶图建立模块403得到的所述加权偶图的最大加权匹配值。

第二计算模块404具体用于在加权偶图建立模块403得到的所述加权偶图中找到权值之和最大且不共顶点的边集，将所述权值之和最大且不共顶点的边集的权值之和作为所述加权偶图的最大加权匹配值。

第二计算模块404在加权偶图G_weight中找到一个不共顶点的边集，且该边集与其他所有不共顶点的边集相比，其权值之和为最大，则称该权值之和为G_weight的最大加权匹配，记为f_δ(T₁,T₂)。根据0≤eds(t_1,i,t_2,j)≤1，可知，0≤f_δ(T₁,T₂)≤min{|T₁|,|T₂|}，其中min{|T₁|,|T₂|}表示取集合{|T₁|,|T₂|}中的最小值，|T₁|表示分词集合T₁的基数，即分词数量，|T₂|表示分词集合T₂的基数。

第三计算模块405用于利用第二计算模块404得到的所述最大加权匹配值，计算所述待检测文档之间的相似度。

第三计算模块405具体用于利用最大加权匹配值，根据Jaccard公式或者余弦相似度公式或者距离公式等，计算所述待检测文档之间的相似度。具体为：

DICE距离公式：F_δ(s₁,s₂)＝2×f_δ(T₁,T₂)/(|T₁|+|T₂|)。

本发明提供的文档相似度计算装置，由于在计算f_δ(T₁,T₂)时考虑了基于字符的相似度，因而得到的相似度函数能够结合基于字符相似度函数和基于集合的相似度函数的优势，准确率高。

实施例四

图5是本实施例四提供的近似重复文档检测装置示意图，如图5所示，本发明的近似重复文档检测装置包括：分词处理模块501、分串处理模块502、文档签名生成模块503、索引模块504、计算模块505和判断模块506。

分词处理模块501用于对各待检测文档进行切词处理，得到所述各待检测文档各自的分词集合。

分词处理模块501采用现有的切词方法，例如，通过识别特定的非英文字符(如标点、数字等)的切词方法、正向最大匹配法等等，对各待检测文档进行切词处理，得到分词集合。

可选的，分词处理模块501在对各待检测文档进行切词处理之后，还用于对切词处理得到的分词进行编号并记录分词编号，所述分词编号表示该分词在待检测文档中出现的顺序。

例如，对于待处理文档集分别为S₁、S₂，对于任意s₁∈S₁、s₂∈S₂，分词处理模块501通过识别特定的非英文字符(如标点、数字等)或其他切词方法对其进行切词处理，得到分词集合T₁＝{t_1,1,t_1,2,…,t_1,m}、T₂＝{t_2,1,t_2，2,…,t_2，n}，同时为每个出现在文档字符串中的分词编号。

分串处理模块502用于分别将分词处理模块501得到的同一待检测文档对应的分词集合中的各分词划分为长度小于所述分词的子串，利用所述子串形成所述分词的签名集合。

分串处理模块502具体用于对分词处理模块501得到的同一待检测文档对应的分词集合中的每个分词，可以但不限于采用q元法q-gram划分得到原分词中所有长度为q的连续子串。

对于所有t_1,i∈T₁、t_2,j∈T₂(1≤i≤|T1|、1≤j≤|T2|)，|T1|和|T2|分别为分词集合T₁与T₂的基数，分串处理模块502将其划分为长度更短的子串，得到集合R_1,i、R_2,j，例如，通过q-gram划分获得原分词中所有长度为q的连续子串。举个例子，对于分词Token＝"a₁a₂…a_i…a_p"，其对应的2-gram集合为{a₁a₂,a₂a₃,…,a_ia_(i+1),…,a_(p-1)a_p}，3-gram集合为{a₁a₂a₃,a₂a₃a₄,…,a_(i-1)a_ia_(i+1),…,a_(p-2)a_(p-1)a_p}。

可选的，为了提高处理效率，分串处理模块502可以根据子串的切分策略，选择适当的过滤方法来删除R_1,i、R_2,j中的部分子串，以精简子串集合和减少存储开销。分串处理模块502在对各待检测文档进行切词处理之后，还用于对所述连续子串排序，保留前N个子串，其中N为预设正整数；并利用保留的子串形成所述分词的签名集合。

若采用q-gram子串切分策略，分串处理模块502可将R_1,i、R_2,j中的子串按照字典序排序，只保留前N＝(q×ε′+1)个子串，精简后的子串集合称为分词签名，记为R_1,i′、R_2,j′。其中，ε′是预设编辑距离阈值ε的估值，其定义方法为δ为预设编辑相似度阈值，|t₁|为分词t₁的字符串长度。

文档签名生成模块503用于将同一待检测文档对应的分词集合中所有分词的签名集合合并，生成所述待检测文档的文档签名。

文档签名生成模块503具体包括：合并单元和排序单元(图未示)。合并单元用于将同一待检测文档对应的分词集合中所有分词的签名集合合并，并记录每个子串所在的分词编号。排序单元用于对所述合并后的签名集合中的各子串进行排序，将满足要求的子串组成所述待检测文档的文档签名。

排序单元在对所述合并后的签名集合中的各子串进行排序之后，还用于从后往前删除所述排序后的签名集合中的子串，并采用数据结构表记录已删除子串对应的分词编号；如果被删除的子串对应的分词编号未在所述数据结构表中出现过，则将其加入所述数据结构表中；当所述数据结构表中的元素个数达到M时，停止删除，M为预设个数阈值；并将剩余的子串组成所述待检测文档的文档签名。

首先，文档签名生成模块503取SIG_δ(T₁)＝∪_1≤i≤mR_1,i′、SIG_δ(T₂)＝∪_1≤j≤nR_1,j′，将SIG_δ(T₁)与SIG_δ(T₂)中的子串排序(如：字典序、逆文档频率idf等)，并记录每个子串所属分词的编号。然后，文档签名生成模块503从后往前删除SIG_δ(T₁)中的子串，并采用哈希表(或其他数据结构)记录已删除子串对应的分词编号。若当前删除的子串对应的分词编号未在哈希表中出现过，则将其加入哈希表中，当哈希表中元素个数达到M时，停止删除。其中，M为预设个数阈值，在本实施例中，θ′是最大加权匹配阈值θ的估值，其计算方法为θ′＝τ×|T₁|≤θ，τ为预设相似度阈值，|T₁|为分词集合T₁的基数。

索引模块504用于对文档签名生成模块503生成的文档签名建立反向索引，将出现在同一子串对应的索引表项中的两个分词集合对应的文档配对成文档对并加入候选集中。

索引模块504对文档签名建立反向索引，每个子串对应至少一个它出现过的分词集合，若两个分词集出现在同一个子串对应的索引表项中，将其配对并加入候选集中。

计算模块505用于计算所述候选集中文档对的相似度。

图6是本实施例四提供的计算模块的示意图，如图6所示，计算模块505包括第一计算单元5051、加权偶图建立单元5052、第二计算单元5053和第三计算单元5054。

第一计算单元5051与索引模块504相连接，用于计算索引模块504得到的所述候选集中文档对的两个分词集合T₁,T₂中所有分词对(t_1,i，t_2,j)的编辑相似度，其中，t_1,i∈T₁、t_2,j∈T₂，1≤i≤|T1|、1≤j≤|T2|、|T1|和|T2|分别为分词集合T₁与T₂的基数。

具体的，第一计算单元5051以分词集合T₁与T₂中所有分词t_1,i∈T₁、t_2,j∈T₂为顶点建立偶图(Bipartite Graph)，其中1≤i≤|T1|、1≤j≤|T2|、|T1|和|T2|分别为分词集合T₁与T₂的基数，计算所有分词对(t_1,i,t_2,j)的编辑相似度。编辑相似度是对编辑距离进行归一化处理，具体可以为：eds(t_1,i,t_2,j)＝1-ed(t_1,i,t_2,js₂)/max{|t_1,i|,|t_2,j|}，其中eds(t_1,i,t_2,j)和ed(t_1,i,t_2,j)分别表示分词t_1,i、t_2,j之间的编辑相似度(edit similarity)与编辑距离(edit distance)，|t_1,i|、|t_2,j|为两个分词的字符串长度，max{|t_1,i|,|t_2,j|}函数表示取|t_1,i|和|t_2,j|之中的较大值。

加权偶图建立单元5052用于在第一计算单元5051得到的所述编辑相似度满足要求的分词对之间建立边，所述编辑相似度为对应分词对的边的权值，得到加权偶图。

如果eds(t_1,i,t_2,j)≥δ，其中δ为预设编辑相似度阈值，则加权偶图建立单元5052在t_1,i、t_2,j之间建立边并将eds(t_1,i,t_2,j)赋为边的权值，从而得到加权偶图G_weight。根据编辑相似度eds(t_1,i,t_2,j)与编辑距离ed(t_1,i,t_2,j)之间的关系可知，eds(t_1,i,t_2,j)≥δ成立的充要条件为ed(t_1,i,t_2,j)≤ε＝(1-δ)×max{|t_1,i|,|t_2,j|}，其中ε为δ对应的编辑距离阈值。

第二计算单元5053用于计算加权偶图建立单元5052得到的所述加权偶图的最大加权匹配值f_δ(T₁,T₂)。

第二计算单元5053具体用于在加权偶图建立单元5052得到的所述加权偶图中找到权值之和最大且不共顶点的边集，将所述权值之和最大且不共顶点的边集的权值之和作为所述加权偶图的最大加权匹配值f_δ(T₁,T₂)。

具体的，第二计算单元5053在加权偶图G_weight中找到一个不共顶点的边集，且该边集与其他所有不共顶点的边集相比，其权值之和为最大，则称该权值之和为G_weight的最大加权匹配，记为f_δ(T₁,T₂)。根据0≤eds(t_1,i,t_2,j)≤1，可知，0≤f_δ(T₁,T₂)≤min{|T₁|,|T₂|}，其中min{|T₁|,|T₂|}表示取集合{|T₁|,|T₂|}中的最小值，|T₁|表示分词集合T₁的基数，即分词数量，|T₂|表示分词集合T₂的基数。

第三计算单元5054用于利用第二计算单元5053得到的所述最大加权匹配值f_δ(T₁,T₂)，计算所述分词集合T₁,T₂对应的文档s₁,s₂之间的相似度F_δ(s₁,s₂)。

第三计算单元5054利用最大加权匹配值，根据Jaccard公式或者余弦相似度公式或者距离公式等，计算所述待检测文档之间的相似度。具体为：

DICE距离公式：F_δ(s₁,s₂)＝2×f_δ(T₁,T₂)/(|T₁|+|T₂|)。

判断模块506用于将所述相似度满足要求的文档对识别为近似重复文档。

判断模块506具体用于将文档对相似度F_δ(s₁,s₂)大于预设文档相似度阈值的文档对识别为近似重复文档。

可选地，本发明提供的近似重复文档检测装置还可以包括：过滤模块(图未示)，所述过滤模块与计算模块505相连接，用于采用剪枝策略对索引模块504得到的所述候选集中的文档对进行过滤。则计算模块505计算经过所述过滤模块过滤后的所述候选集中的文档对的相似度。

所述过滤模块具体用于依次取出所述索引模块得到的所述候选集中的文档对，评估文档之间的相似度的上限值；如果所述上限值小于预设相似度阈值τ，则将对应的文档对剪枝。

过滤模块为候选集中每一对候选分词集合(T₁,T₂)建立加权偶图，对分词集合T₁或T₂中的每个顶点，选取与其关联的权值最大的边，将所有被选取边的权值累加作为最大加权匹配的估值f_δ′(T₁,T₂)，若f_δ′(T₁,T₂)<θ，则f_δ(T₁,T₂)≤f_δ′(T₁,T₂)<θ且F_δ(s₁,s₂)<τ，即相应的文档对(s₁,s₂)不满足文档近似重复的阈值条件，直接将(T₁,T₂)从候选集中删除；反之，准确计算(T₁,T₂)的最大加权匹配f_δ(T₁,T₂)，然后通过计算模块505进一步计算F_δ(s₁,s₂)并将相似度大于或等于τ的文档对(s₁,s₂)判断为近似重复文档，添加到结果集R，同时从候选集中删除(T₁,T₂)。

本发明提供的近似重复文档检测装置利用“先过滤、后检查”的近似重复文档检测算法，能够在提高近似重复文档检测准确度的同时优化计算效率，因而适用于海量文本数据的近似重复检测。

本发明提供的文档相似度计算方法及装置，将分词间的编辑相似度用于计算文档相似度，能够有效识别包含分词集别编辑错误的近似重复文本，特别适用于互联网数据的清洗和分析。

本发明提供的文档相似度计算方法及装置，还可以应用于互联网应用***日志记录或数据库中的文本记录等。

以海量的搜索引擎的查询日志为例，若要对如此大规模的数据进行挖掘分析，重复数据的识别、统计、清洗是其中必不可少的重要步骤。现有很多相似度函数能够用于计算文本数据的相似性，然而，将这些相似度函数简单推广至查询日志中并非完全合理：如果采用基于字符的相似度函数，则“Schwarzenegger movie terminator”与“movie terminatorSchwarzenegger”会被作为不同的记录处理，因为这两个字符串的编辑距离为28，编辑相似度为0.035，我们无法通过设置合理的阈值将这二者判断为相同字符串；如果采用基于集合的相似度函数，则“Schwarzeneger movie terminator”与“movie terminaterSchwarzenegger”将会被视为不同的字符串，因为三个单词中，“Schwarzeneger”与“Schwarzenegger”不同，“terminator”与“terminater”不同，而这样的拼写错误在日常生活中时十分常见的。可以看出，无论是前面的两个查询或是后面的两个查询，目的都是有关一个叫做“Schwarzenegger”的演员以及他的名为“terminator”的电影。并且这几个字符串在形式上并不存在太大的区别，因此需要将它们都作为相同的查询记录来处理。采用本发明的相似度计算方法则能够综合两种函数优点，准确率高。

再以英文人名重复检查为例，对于大型企业而言，数据集成是一项不可或缺的应用。它意图将企业内部乃至多个企业之间的若干异构的、运行于不同软硬件平台的信息加以整合，并提供一个更加统一的访问接口，来实现更高层次的信息共享。在整合时，相同实体的识别是数据去重、合并的一个关键。在这样的***中，人名往往是十分重要的一个属性，因而需要一种准确高效的方法，能够识别出众多记录中代表着相同人物的名称。不同的***可能采取不同的方式表示人名，例如有的***会将姓(family name)放置在名(firstname)之前，另外一些***则与之相反。对于这样的情况，采用基于集合的相似度函数可以较为准确地反应两个名称是否对应于同一实体。同时，由于***中的数据多为人工录入，编辑错误不可避免，基于字符的相似度函数也具有重要价值。本发明提供的相似度计算方法能够综合基于集合的相似度函数和基于字符的相似度函数的优点，能够在很大程度上帮助企业实现多源信息的整合、集成。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种近似重复文档检测方法，其特征在于，所述方法包括：

对各待检测文档进行切词处理，以及将切词处理得到的分词进行编号并记录分词编号，得到所述各待检测文档各自的编号后的分词集合；其中，所述分词编号表示该分词在所述待检测文档中出现的顺序；

分别将同一待检测文档对应的分词集合中的各分词划分为所述分词的子串，利用所述子串形成所述分词的签名集合；

将所述同一检测文档对应的分词集合中所有分词的签名集合合并，并记录每个子串所在的分词编号；对所述合并后的签名集合中的各子串进行排序，将满足要求的子串组成所述待检测文档的文档签名；

2.根据权利要求1所述的方法，其特征在于，对所述合并后的签名集合中的各子串进行排序，将满足要求的子串组成所述待检测文档的文档签名，包括：

对所述合并后的签名集合中的各子串进行排序；

将剩余的子串组成所述待检测文档的文档签名。

3.根据权利要求1所述的方法，其特征在于，分别将同一待检测文档对应的分词集合中的各分词划分为所述分词的子串，包括：

4.根据权利要求3所述的方法，其特征在于，利用所述子串形成所述分词的签名集合，包括：

利用所述保留的子串形成所述分词的签名集合。

5.根据权利要求1所述的方法，其特征在于，所述计算所述候选集中文档对的相似度，包括：

计算所述加权偶图的最大加权匹配值f_δ(T₁,T₂)；

6.根据权利要求5所述的方法，其特征在于，所述计算加权偶图的最大加权匹配值f_δ(T₁,T₂)，包括：

7.根据权利要求5所述的方法，其特征在于，所述利用最大加权匹配值f_δ(T₁,T₂)，计算所述分词集合T₁,T₂对应的文档s₁,s₂之间的相似度F_δ(s₁,s₂)，包括：

F_δ(s₁,s₂)＝f_δ(T₁,T₂)/(|T₁|+|T₂|-f_δ(T₁,T₂))；

或者，F_δ(s₁,s₂)＝f_δ(T₁,T₂)/(|T₁|×|T₂|)^1/2；

或者，F_δ(s₁,s₂)＝2×f_δ(T₁,T₂)/(|T₁|+|T₂|)；

8.根据权利要求5所述的方法，其特征在于，所述编辑相似度满足要求包括：所述编辑相似度大于或等于预设编辑相似度阈值。

9.根据权利要求1所述的方法，其特征在于，在计算所述候选集中文档对的相似度之前，还包括：

采用剪枝策略对所述候选集中的文档对进行过滤；

所述计算所述候选集中文档对的相似度，包括：

计算过滤后的所述候选集中的文档对的相似度。

10.根据权利要求9所述的方法，其特征在于，所述采用剪枝策略对所述候选集中的文档对进行过滤，包括：

11.一种近似重复文档检测装置，其特征在于，所述装置包括：

分词处理模块，用于对各待检测文档进行切词处理，以及将切词处理得到的分词进行编号并记录分词编号，得到所述各待检测文档各自编号后的分词集合；其中，所述分词编号表示该分词在所述待检测文档中出现的顺序；

分串处理模块，用于分别将所述分词模块得到的同一待检测文档对应的分词集合中的各分词划分为所述分词的子串，利用所述子串形成所述分词的签名集合；

文档签名生成模块，用于将所述同一待检测文档对应的分词集合中所有分词的签名集合合并，生成所述待检测文档的文档签名；其中，所述文档签名生成模块具体包括：合并单元和排序单元；所述合并单元用于将所述同一待检测文档对应的分词集合中所有分词的签名集合合并，并记录每个子串所在的分词编号；所述排序单元用于对所述合并后的签名集合中的各子串进行排序，将满足要求的子串组成所述待检测文档的文档签名；

计算模块，用于计算所述候选集中文档对的相似度；

12.根据权利要求11所述的装置，其特征在于，所述排序单元在对所述合并后的签名集合中的各子串进行排序之后，还用于从后往前删除所述排序后的签名集合中的子串，并采用数据结构表记录已删除子串对应的分词编号；如果被删除的子串对应的分词编号未在所述数据结构表中出现过，则将其加入所述数据结构表中；当所述数据结构表中的元素个数达到M时，停止删除，所述M为预设个数阈值；并将剩余的子串组成所述待检测文档的文档签名。

13.根据权利要求11所述的装置，其特征在于，所述分串处理模块具体用于对所述分词集合中的每个分词，采用q元法q-gram划分得到原分词中所有长度为q的连续子串。

14.根据权利要求13所述的装置，其特征在于，所述分串处理模块还用于对所述连续子串排序，保留前N个子串，其中N为预设正整数；并利用所述保留的子串形成所述分词的签名集合。

15.根据权利要求11所述的装置，其特征在于，所述计算模块包括：

16.根据权利要求15所述的装置，其特征在于，所述第二计算单元具体用于在所述加权偶图建立单元得到的所述加权偶图中找到权值之和最大且不共顶点的边集，将所述权值之和最大且不共顶点的边集的权值之和作为所述加权偶图的最大加权匹配值f_δ(T₁,T₂)。

17.根据权利要求15所述的装置，其特征在于，所述第三计算单元具体用于利用所述最大加权匹配值f_δ(T₁,T₂)，根据以下所列任一公式，计算所述分词集合T₁,T₂对应的文档s₁,s₂之间的相似度F_δ(s₁,s₂)：

F_δ(s₁,s₂)＝f_δ(T₁,T₂)/(|T₁|+|T₂|-f_δ(T₁,T₂))；

或者，F_δ(s₁,s₂)＝f_δ(T₁,T₂)/(|T₁|×|T₂|)^1/2；

或者，F_δ(s₁,s₂)＝2×f_δ(T₁,T₂)/(|T₁|+|T₂|)；

18.根据权利要求15所述的装置，其特征在于，所述编辑相似度满足要求包括：所述编辑相似度大于或等于预设编辑相似度阈值。

19.根据权利要求11所述的装置，其特征在于，所述装置还包括：

20.根据权利要求19所述的装置，其特征在于，所述过滤模块具体用于依次取出所述索引模块得到的所述候选集中的文档对，评估文档之间的相似度的上限值；如果所述上限值小于预设相似度阈值τ，则将对应的文档对剪枝。