CN106528507A

CN106528507A - 一种中文文本相似度的检测方法及检测装置

Info

Publication number: CN106528507A
Application number: CN201610939958.6A
Authority: CN
Inventors: 黄华军
Original assignee: Central South University of Forestry and Technology
Current assignee: Central South University of Forestry and Technology
Priority date: 2016-10-25
Filing date: 2016-10-25
Publication date: 2017-03-22
Anticipated expiration: 2036-10-25
Also published as: CN106528507B

Abstract

本发明公开一种中文文本相似度的检测方法及检测装置，所述检测方法包括：步骤一：对中文本中的各个高频字进行拆分，获得多个部件及各部件之间的关联频次；步骤二：根据所述多个部件及各部件之间的关联频次，绘制对应中文文本的部件关联图；步骤三：基于所述中文文本的部件关联图，计算待检测文本与参照文本的相似度。本发明中文文本相似度的检测方法通过中文本中的各个高频字进行拆分，构建部件关联图，进而根据部件关联图，确定待检测文本与参照文本的相似度；部件之间相互关联组成汉字，以部件关联图作为相似度检测依据可以有效提高文件相似度检测的检测精度。

Description

一种中文文本相似度的检测方法及检测装置

技术领域

本发明涉及相似度检测领域，特别是涉及一种中文文本相似度的检测方法及检测装置。

背景技术

文本文档是信息存储、传播和交流的主要形式之一，是人们在日常生活和工作中，使用最为频繁和广泛的信息载体。互联网给人们提供了丰富的论文资源，文本编辑软件给人们提供了灵活的编辑处理工具。这些资源和工具在为我们提供便利的同时，也使抄袭、剽窃、造假、侵权事件频频发生，严重威胁着创新型国家的建设。

文本相似度检测（copy detection）是打击抄袭、剽窃等侵权行为的有效手段之一，是近年才发展起来的一个新兴的研究领域。已有研究成果可以分为基于物理结构的检测和基于内容的检测方法两大类。基于物理结构的文本相似度检测纷纷通过分析文档内部组件的相互关系、冗余空间信息获取对文本复制和篡改的有关证据。基于内容的文本相似度检测方法对文本的内容是否完整、内容是否被篡改或部分内容被篡改等进行检测。

这类方法的缺点是，当存储文本的文件类型改变时，文件的物理结构信息将会不同程度受到损失，这类方法将随之失效。基于内容的文本相似度检测已有成果可以分为两类：基于语义的比较和基于字词的统计分析。基于语义比较方法的基本思想是从文本中选取句子或词语作为分析内容，利用自然语言处理领域的相关方法对文本中的句子或词语进行语义分析其相似度，最后得到文本的相似度；基于字词统计的方法首先需要对文本进行分片，抽取合适的词语来表示文本，并统计每个词语出现的频次，根据这些词语的频次构成文本特征向量，再采用点积、余弦或者类似方式度量两篇文本特征向量的相似度，并以此作为文本相似度。

但是由于中文文本中存在的关于同义词替换、移位替换、语句变换以及文本表示中存在的高维、稀疏等问题，中文文本相似度检测一直未能取得很好的结果。

发明内容

本发明的目的是提供一种中文文本相似度的检测方法，可提高中文文本相似度检测的检测准确度。

为实现上述目的，本发明提供了如下方案：

一种中文文本相似度的检测方法，所述检测方法包括：

步骤一：对中文本中的各个高频字进行拆分，获得多个部件及各部件之间的关联频次；

步骤二：根据所述多个部件及各部件之间的关联频次，绘制对应中文文本的部件关联图；

步骤三：基于所述中文文本的部件关联图，计算待检测文本与参照文本的相似度。

可选的，在步骤一之前，所述检测方法包括：

对中文文本进行预处理，获取高频字。

可选的，所述获取高频字的方法包括：

删除所述中文文本中的停用字、无用字；

从删除后的文本中抽取中文文字；

统计各所述中文文字的出现频率；

按照设定的频率比例，从所述中文文字中筛选高频字。

可选的，所述获得多个部件及各部件之间的关联频次的方法包括：

根据汉子数学表达式将中文本中的各个高频字拆分，分别获得关于部件的集合；

根据各部件的集合中确定不同部件出现的频次，并对各不同的部件依次进行编号；

根据部件的集合确定各部件之间的关联频次。

可选的，所述部件关联图的包括单个部件的部件关联簇图和整个文本的部件关联全图；

其中，所述基于所述中文文本的部件关联图，计算待检测文本与参照文本的相似度的方法包括：

步骤31：根据以下公式确定待检测文本B与参照文本A中相同部件i的部件关联簇图的相似度sim(C_i,C_i′)：

其中，i、k分别表示中文文本中部件号，i＝1,...,n、k＝1,...,n、i≠k，C_i表示参照文本A中第i号部件，C_i′表示待检测文本B中第i号部件，W_ik表示参照文本A中第i号部件与第k号的关联频次，W_ik′表示待检测文本B中第i号部件与第k号的关联频次，min(W_ik,W_ik′)表示待检测文本B与参照文本A中分别第i号部件与第k号部件关联频次的最小值，∑W_i表示参照文本A中所有第i号部件关联频次的总和，×1{C_k＝C_k′}表示若待检测文本B与参照文本A中第i号部件都同时与第k号部件关联，则将关联度加入第i号部件的关联簇结果中，否则忽略；

步骤32：根据以下公式确定待检测文本B中全部部件的部件关联簇图相似度的比例和sim(C,C')：

其中，表示在待检测文本B与参照文本A中第i号部件的部件关联簇图的相似度占待检测文本B中部件关联簇图相似度的比例；

步骤33：根据以下公式确定待检测文本B与参照文本A中的部件关联全图的相似度sim(CRM(A),CRM(B))：

其中，CRM(A)∩CRM(B)表示待检测文本B与参照文本A中部件关联的相同部分，CRM(A)∪CRM(B)表示待检测文本B与参照文本A中部件关联的总和，表示待检测文本B与参照文本A分别第i号部件关联与其他部件的关联频次之和的最小值，表示待检测文本B与参照文本A中分别第i号部件关联与其他部件的关联频次之和的最大值，×1{C_i＝C_i'}表示若待检测文本B与参照文本A中都有第i号部件才对其进行计算，否则忽略，表示所有在参照文本A中出现但在待检测文本B中不出现的部件j与其他部件的关联频次之和，乘以部件号，再求和，表示所有在待检测文本B中出现但在参照文本A中不出现的部件j与其他部件的关联频次之和，乘以部件号，再求和；

步骤34：根据以下公式确定计算待检测文本B与参照文本A的相似度sim(A,B)：

sim(A,B)＝α×sim(C,C′)+(1-α)×sim(CRM(A),CRM(B))---------（6）；

其中，α为***参考系数。

可选的，α的初始值为0.5，之后按照设定比例增减以计算相似度sim(A,B)，根据相似度sim(A,B)调整α的数值。

可选的，所述检测方法还包括：

根据各部件出现频次绘制部件直方图。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明中文文本相似度的检测方法通过中文本中的各个高频字进行拆分，构建部件关联图，进而根据部件关联图，确定待检测文本与参照文本的相似度；部件之间相互关联组成汉字，以部件关联图作为相似度检测依据可以有效提高文件相似度检测的检测精度。

本发明的目的是提供一种中文文本相似度的检测装置，可提高中文文本相似度检测的检测准确度。

为实现上述目的，本发明提供了如下方案：

一种中文文本相似度的检测装置，所述检测装置包括：

拆分单元，用于对中文本中的各个高频字进行拆分，获得多个部件及各部件之间的关联频次；

绘图单元，用于根据所述多个部件及各部件之间的关联频次，绘制对应中文文本的部件关联图；

计算单元，用于基于所述中文文本的部件关联图，计算待检测文本与参照文本的相似度。

可选的，所述检测装置还包括：

预处理单元，与所述拆分单元连接，用于对中文文本进行预处理，获取高频字。

其中，计算单元包括：

关联簇图计算模块，用于根据以下公式确定待检测文本B与参照文本A中相同部件i的部件关联簇图的相似度sim(C_i,C_i′)：

比例计算模块，用于根据以下公式确定待检测文本B中全部部件的部件关联簇图相似度的比例和sim(C,C')：

关联全图计算模块，用于根据以下公式确定待检测文本B与参照文本A中的部件关联全图的相似度sim(CRM(A),CRM(B))：

相似度计算模块，分别与比例计算模块和关联全图计算模块连接，用于根据以下公式确定计算待检测文本B与参照文本A的相似度sim(A,B)：

sim(A,B)＝α×sim(C,C′)+(1-α)×sim(CRM(A),CRM(B))---------（6）；

其中，α为***参考系数。

相对于现有技术，本发明中文文本相似度的检测装置与上述中文文本相似度的检测方法的有益效果相同，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中文文本相似度的检测方法的流程图；

图2为本发明中整个文本的部件关联全图；

图3为本发明中单个部件的部件关联簇图；

图4为本发明中部件直方图；

图5为本发明中文文本相似度的检测装置的模块结构示意图。

符号说明：

拆分单元 1 绘图单元 2

计算单元 3 关联簇图计算模块 31

比例计算模块 32 关联全图计算模块 33

相似度计算模块 34。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种中文文本相似度的检测方法，通过中文本中的各个高频字进行拆分，构建部件关联图，进而根据部件关联图，确定待检测文本与参照文本的相似度；部件之间相互关联组成汉字，以部件关联图作为相似度检测依据可以有效提高文件相似度检测的检测精度。

部件是介于笔画与汉字之间的一个概念，它是由笔画组成的一个结构块，由不同数量、不同功能的结构块按不同的方式组合成汉字，由部件作为操作数、部件间的结构关系作为运算符组成汉字数学表达式，根据汉字数学表达式将中文文本拆分成部件的集合。每一个相同部件都有一个唯一的部件号标志。部件直方图即是中文文本中部件出现的频次图，作为文本指纹。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明中文文本相似度的检测方法包括：

步骤110：对中文本中的各个高频字进行拆分，获得多个部件及各部件之间的关联频次；

步骤120：根据所述多个部件及各部件之间的关联频次，绘制对应中文文本的部件关联图；

步骤130：基于所述中文文本的部件关联图，计算待检测文本与参照文本的相似度。

进一步地，本发明中文文本相似度的检测方法还包括：

步骤100，设置于步骤110之前，对中文文本进行预处理，获取高频字。

其中，所述获取高频字的方法包括：

步骤101：删除所述中文文本中的停用字、无用字；

步骤102：从删除后的文本中抽取中文文字；

步骤103：统计各所述中文文字的出现频率；

步骤104：按照设定的频率比例，从所述中文文字中筛选高频字。

所述设定的频率比例为在中文文本中高频字按照频次由高到低排列后取的比例，可为前20%、40%、60%、80%、100%等。

其中，在步骤110，所述获得多个部件及各部件之间的关联频次的方法包括：

步骤111：根据汉子数学表达式将中文本中的各个高频字拆分，分别获得关于部件的集合；

步骤112：根据各部件的集合中确定不同部件出现的频次，并对各不同的部件依次进行编号；

步骤113：根据部件的集合确定各部件之间的关联频次。

进一步地，部件关联图是由部件表示节点，部件之间关联则绘制边，关联频次作为边的权重表示的图。汉字由部件按一定方式组成，因此部件之间必然存在关联，部件之间的关联情况能够反映中文文本中汉字的情况。其中，所述部件关联图的包括单个部件的部件关联簇图（如图3所示）和整个文本的部件关联全图（如图2所示）。

其中，所述基于所述中文文本的部件关联图，计算待检测文本与参照文本的相似度的方法包括（结合表1）：

步骤131：根据以下公式确定待检测文本B与参照文本A中相同部件i的部件关联簇图的相似度sim(C_i,C_i′)：

其中，i、k分别表示中文文本中部件号，i＝1,...,n、k＝1,...,n、i≠k，C_i表示参照文本A中第i号部件，C_i′表示待检测文本B中第i号部件，W_ik表示参照文本A中第i号部件与第k号的关联频次，W_ik′表示待检测文本B中第i号部件与第k号的关联频次，min(W_ik,W_ik′)表示待检测文本B与参照文本A中分别第i号部件与第k号部件关联频次的最小值，∑W_i表示参照文本A中所有第i号部件关联频次的总和，×1{C_k＝C_k′}表示若待检测文本B与参照文本A中第i号部件都同时与第k号部件关联，则将关联度加入第i号部件的关联簇结果中，否则忽略.

步骤132：根据以下公式确定待检测文本B中全部部件的部件关联簇图相似度的比例和sim(C,C')：

其中，表示在待检测文本B与参照文本A中第i号部件的部件关联簇图的相似度占待检测文本B中部件关联簇图相似度的比例。

步骤133：根据以下公式确定待检测文本B与参照文本A中的部件关联全图的相似度sim(CRM(A),CRM(B))：

其中，CRM(A)∩CRM(B)表示待检测文本B与参照文本A中部件关联的相同部分，CRM(A)∪CRM(B)表示待检测文本B与参照文本A中部件关联的总和，表示待检测文本B与参照文本A分别第i号部件关联与其他部件的关联频次之和的最小值，表示待检测文本B与参照文本A中分别第i号部件关联与其他部件的关联频次之和的最大值，×1{C_i＝C_i'}表示若待检测文本B与参照文本A中都有第i号部件才对其进行计算，否则忽略，表示所有在参照文本A中出现但在待检测文本B中不出现的部件j与其他部件的关联频次之和，乘以部件号，再求和，表示所有在待检测文本B中出现但在参照文本A中不出现的部件j与其他部件的关联频次之和，乘以部件号，再求和。

步骤134：根据以下公式确定计算待检测文本B与参照文本A的相似度sim(A,B)：

sim(A,B)＝α×sim(C,C′)+(1-α)×sim(CRM(A),CRM(B))---------（6）；其中，α为***参考系数。

表1公式符号及其含义

其中，α的初始值为0.5，之后按照设定比例增减以计算相似度sim(A,B)，根据相似度sim(A,B)调整α的数值。在本实施例中，所述设定比例为0.1。

通过本发明中文文本相似度的检测与基于余弦特征向量的相似度检测方法进行聚类对比分析，比较其结果，确定出最佳的***参考系数。

此外，本发明中文文本相似度的检测方法还包括：根据各部件出现频次绘制部件直方图（如图4所示），根据所述部件直方图可直观的确定各部件出现频次，便于统计分析。

本发明中文文本相似度的检测方法根据部件之间的关联关系，构建部件关联图，并分别从单个部件的部件关联簇图与整个文本的部件关联全图计算相似度，并综合所有结果得到最后文本相似度值。部件之间相互关联组成汉字，因此中文文本可以表示成部件关联的情况，以部件关联图作为相似度检测依据可以有效解决文本表示中存在的稀疏等缺陷，从而提高检测的准确度。

此外，本发明还提供一种中文文本相似度的检测装置，可提高中文文本相似度检测的检测准确度。

具体的，如图5所示，本发明中文文本相似度的检测装置包括拆分单元1、绘图单元2及计算单元3。其中，拆分单元1对中文本中的各个高频字进行拆分，获得多个部件及各部件之间的关联频次；所述绘图单元2根据所述多个部件及各部件之间的关联频次，绘制对应中文文本的部件关联图；所述计算单元3基于所述中文文本的部件关联图，计算待检测文本与参照文本的相似度。

进一步地，本发明中文文本相似度的检测装置还包括预处理单元4，所述预处理单元4与所述拆分单元1连接，用于对中文文本进行预处理，获取高频字。

其中，所述预处理单元4对中文文本进行预处理，获取高频字包括：删除所述中文文本中的停用字、无用字；从删除后的文本中抽取中文文字；统计各所述中文文字的出现频率；按照设定的频率比例，从所述中文文字中筛选高频字。

所述拆分单元1对中文本中的各个高频字进行拆分，获得多个部件及各部件之间的关联频次包括：根据汉子数学表达式将中文本中的各个高频字拆分，分别获得关于部件的集合；根据各部件的集合中确定不同部件出现的频次，并对各不同的部件依次进行编号；根据部件的集合确定各部件之间的关联频次。

所述绘图单元2绘制的对应中文文本的部件关联图包括单个部件的部件关联簇图和整个文本的部件关联全图。此外，所述绘图单元2还用于根据各部件出现频次绘制部件直方图。

所述计算单元3进一步包括关联簇图计算模块31、比例计算模块32、关联全图计算模块33及相似度计算模块34。其中，所述关联簇图计算模块31用于根据以下公式确定待检测文本B与参照文本A中相同部件i的部件关联簇图的相似度sim(C_i,C_i')：

其中，i、k分别表示中文文本中部件号，i＝1,...,n、k＝1,...,n、i≠k，C_i表示参照文本A中第i号部件，C_i'表示待检测文本B中第i号部件，W_ik表示参照文本A中第i号部件与第k号的关联频次，W_ik′表示待检测文本B中第i号部件与第k号的关联频次，min(W_ik,W_ik′)表示待检测文本B与参照文本A中分别第i号部件与第k号部件关联频次的最小值，∑W_i表示参照文本A中所有第i号部件关联频次的总和，×1{C_k＝C_k′}表示若待检测文本B与参照文本A中第i号部件都同时与第k号部件关联，则将关联度加入第i号部件的关联簇结果中，否则忽略。

所述比例计算模块32根据以下公式确定待检测文本B中全部部件的部件关联簇图相似度的比例和sim(C,C')：

所述关联全图计算模块33根据以下公式确定待检测文本B与参照文本A中的部件关联全图的相似度sim(CRM(A),CRM(B))：

所述相似度计算模块34分别与比例计算模块和关联全图计算模块连接，用于根据以下公式确定计算待检测文本B与参照文本A的相似度sim(A,B)：

sim(A,B)＝α×sim(C,C′)+(1-α)×sim(CRM(A),CRM(B))---------（6）；

其中，α为***参考系数，α的初始值为0.5，之后按照设定比例增减以计算相似度sim(A,B)，根据相似度sim(A,B)调整α的数值。在本实施例中，所述设定比例为0.1。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种中文文本相似度的检测方法，其特征在于，所述检测方法包括：

2.根据权利要求1所述的中文文本相似度的检测方法，其特征在于，在步骤一之前，所述检测方法包括：

对中文文本进行预处理，获取高频字。

3.根据权利要求2所述的中文文本相似度的检测方法，其特征在于，所述获取高频字的方法包括：

删除所述中文文本中的停用字、无用字；

从删除后的文本中抽取中文文字；

统计各所述中文文字的出现频率；

按照设定的频率比例，从所述中文文字中筛选高频字。

4.根据权利要求1所述的中文文本相似度的检测方法，其特征在于，所述获得多个部件及各部件之间的关联频次的方法包括：

根据部件的集合确定各部件之间的关联频次。

5.根据权利要求1所述的中文文本相似度的检测方法，其特征在于，所述部件关联图的包括单个部件的部件关联簇图和整个文本的部件关联全图；

步骤31：根据以下公式确定待检测文本B与参照文本A中相同部件i的部件关联簇图的相似度sim(C_i,C′_i)：

s i m (C_{i}, C_{i}^{'}) = Σ_{k = 1}^{n} \frac{m i n (W_{i k}, W_{i k}^{'})}{{ΣW}_{i}} \times 1 {C_{k} = C_{k}^{'}} - - - (1);

其中，i、k分别表示中文文本中部件号，i＝1,...,n、k＝1,...,n、i≠k，C_i表示参照文本A中第i号部件，C′_i表示待检测文本B中第i号部件，W_ik表示参照文本A中第i号部件与第k号的关联频次，W′_ik表示待检测文本B中第i号部件与第k号的关联频次，min(W_ik,W′_ik)表示待检测文本B与参照文本A中分别第i号部件与第k号部件关联频次的最小值，∑W_i表示参照文本A中所有第i号部件关联频次的总和，×1{C_k＝C′_k}表示若待检测文本B与参照文本A中第i号部件都同时与第k号部件关联，则将关联度加入第i号部件的关联簇结果中，否则忽略；

s i m (C, C^{'}) = Σ_{i = 1}^{n} F_{C_{i}^{'}} s i m (C_{i}, C_{i}^{'}) - - - (2);

s i m (C R M (A), C R M (B)) = | \frac{C R M (A) \cap C R M (B)}{C R M (A) \cup C R M (B)} | - - - (3);

C R M (A) \cap C R M (B) = Σ \min (D_{c_{i}}, D_{c_{i}^{'}}) \times i \times 1 {C_{i} = C_{i}^{'}} - - - (4);

C R M (A) \cup C R M (B) = Σ m a x (D_{c_{i}}, D_{c_{i}^{'}}) \times i \times 1 {C_{i} = C_{i}^{'}} + {ΣD}_{C_{j}} \times j + {ΣD}_{C_{k}^{'}} \times k - - - (5);

sim(A,B)＝α×sim(C,C′)+(1-α)×sim(CRM(A),CRM(B))---------(6)；

其中，α为***参考系数。

6.根据权利要求5所述的中文文本相似度的检测方法，其特征在于，α的初始值为0.5，之后按照设定比例增减以计算相似度sim(A,B)，根据相似度sim(A,B)调整α的数值。

7.根据权利要求1-6中任一项所述的中文文本相似度的检测方法，其特征在于，所述检测方法还包括：

根据各部件出现频次绘制部件直方图。

8.一种中文文本相似度的检测装置，其特征在于，所述检测装置包括：

9.根据权利要求8所述的中文文本相似度的检测装置，其特征在于，所述检测装置还包括：

10.根据权利要求8所述的中文文本相似度的检测装置，其特征在于，所述，所述部件关联图的包括单个部件的部件关联簇图和整个文本的部件关联全图；

其中，计算单元包括：

关联簇图计算模块，用于根据以下公式确定待检测文本B与参照文本A中相同部件i的部件关联簇图的相似度sim(C_i,C′_i)：

s i m (C_{i}, C_{i}^{'}) = Σ_{k = 1}^{n} \frac{m i n (W_{i k}, W_{i k}^{'})}{{ΣW}_{i}} \times 1 {C_{k} = C_{k}^{'}} - - - (1);

s i m (C, C^{'}) = Σ_{i = 1}^{n} F_{C_{i}^{'}} s i m (C_{i}, C_{i}^{'}) - - - (2);

s i m (C R M (A), C R M (B)) = | \frac{C R M (A) \cap C R M (B)}{C R M (A) \cup C R M (B)} | - - - (3);

C R M (A) \cap C R M (B) = Σ \min (D_{c_{i}}, D_{c_{i}^{'}}) \times i \times 1 {C_{i} = C_{i}^{'}} - - - (4);

C R M (A) \cup C R M (B) = Σ m a x (D_{c_{i}}, D_{c_{i}^{'}}) \times i \times 1 {C_{i} = C_{i}^{'}} + {ΣD}_{C_{j}} \times j + {ΣD}_{C_{k}^{'}} \times k - - - (5);

sim(A,B)＝α×sim(C,C′)+(1-α)×sim(CRM(A),CRM(B))---------(6)；

其中，α为***参考系数。