CN104050299A

CN104050299A - 一种论文查重的方法

Info

Publication number: CN104050299A
Application number: CN201410319183.3A
Authority: CN
Inventors: 严敏; 林文荟; 杨华; 刘志程
Original assignee: JIANGSU WISEDU INFORMATION TECHNOLOGY Co Ltd
Current assignee: JIANGSU WISEDU INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-07-07
Filing date: 2014-07-07
Publication date: 2014-09-17

Abstract

本发明公开了一种论文查重的方法。该方法通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复分句在原文中的位置，然后判断重复分句在原文中的间隔是否小于M，假如重复分句在原文中的间隔小于M，则待查文章在文本库中内容有重复。本发明的论文查重的方法判重速率和响应速度快，通过精确到分句的对比可以从多个原始论文中多处摘抄中找出摘抄的原始论文。

Description

一种论文查重的方法

技术领域

本发明涉及论文查重的技术。

背景技术

目前论文查重方法主要有三种：基于字符串匹配的方法，基于文档指纹的方法和基于语义知识的方法。

基于字符串匹配的方法是一种基于数理统计的方法。它先通过字符串匹配算法，找出待检测文档与数据库中的文档相匹配的字符串数目，随后利用相似性计算公式求出结果。这种方法对字符串的选取要求很高，同时字符串匹配算法的时间复杂度较高，需要较大的资源开销和较长的计算时间。

基于文档指纹的方法通过将代表文档语义的文本作为“指纹”，通过比较“指纹”从而达到判别抄袭的目的。在选取“指纹”的过程中可能受到文章的层次结构的影响而造成漏判。

基于语义知识的方法是通过分析比较待检测文章与数据库文章的自然语义相似程度从而达到判别抄袭的目的。该方法依赖于自然语言相似性的计算，由于中文语言的复杂性，基于语义知识的判断结果正确性很难得到保证。

针对目前的查重技术，如果论文作者在同一段落，尽可能多的选择多篇文献，从每篇参考文献中摘取部分子句到同一段落，不会被论文查重***快速检测出来。

发明内容

本发明所要解决的问题：如果论文作者选择多篇文献，从每篇参考文献中摘取部分子句，则不会被目前的论文查重***快速检测出来。

为解决上述问题，本发明采用的方案如下：

一种论文查重的方法，包括以下步骤：

S1：对文本库中的原文进行分句，并计算原文每个分句的指纹；

S2：对待查文章进行分句，并计算待查文章每个分句的指纹；

S3：通过待查文章各个分句的指纹与原文各个分句的指纹的对比，确定原文分句指纹与待查文章分句指纹相同的分句和分句的位置，得到重复分句和重复分句在原文中的位置；

S4：根据重复分句在原文中的位置，判断重复分句在原文中的间隔是否小于M；假如重复分句在原文中的间隔小于M，则待查文章与原文的内容有重复；其中M为预先设定的常量。

进一步，根据本发明的论文查重的方法，还包括构建分句指纹库的步骤；所述构建分句指纹库的步骤为对文本库中各个原文进行分句，并计算各个原文每个分句的指纹得到分句指纹库；所述的分句指纹库保存了文本库中各个原文的分句的指纹和分句的位置对应关系表。

本发明的技术效果如下：

1. 本发明通过指纹对比，计算开销低，判重速率快，响应速度快。

2. 精确到分句的判别方法，可以更加准确地对抄袭的现象进行判别。

3. 可以精确还原被抄袭的段落及子句内容，为论文查重提供有力证据。

4. 可以从多个原始论文中多处摘抄中找出摘抄的原始论文。

附图说明

图1本发明论文查重方法的流程图。

具体实施方式

下面结合附图对本发明做进一步详细说明。

本发明通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复分句在原文中的位置，然后判断重复分句在原文中的间隔是否小于M，假如重复分句在原文中的间隔小于M，则待查文章在文本库中内容有重复。如图1所示，包括步骤：

S1：计算文本库中原文各个分句的指纹；

S2：计算待查文章的各个分句的指纹；

S3：找出重复分句和重复分句在原文中的位置；

S4：判断重复分句在原文中的间隔是否小于M。

这里的原文是指文本库中的文献文本。步骤S1和S2中计算指纹的过程实际上包含了两个步骤：对文本进行分句的步骤和计算分句指纹的步骤。对文本进行分句的步骤是指将文本根据分割符进行分割成多个句子的过程。分割符可以是句号、感叹号、问号、分号、分段符等等。文本分割后得到的句子称为分句。文本所有的分句按顺序组合后成文原始文本。计算分句指纹的步骤是采用哈希函数对分句进行运算的过程。这里的哈希函数是指单向散列函数，比如MD5、SHA-1、SHA-2、SHA-3等等。通过采用哈希函数对分句进行运算后得到分句的哈希值，该哈希值即可作为该分句的指纹。

图1中的整体过程是本发明的一实施例。更为通常的情形，步骤S1从属于初始化的步骤。该初始化的步骤又可以称为构建分句指纹库的步骤。构建分句指纹库的步骤为对文本库中各个原文进行分句，并计算各个原文每个分句的指纹得到分句指纹库。分句指纹库保存了文本库中各个原文的分句的指纹和分句的位置对应关系表。有了初始化的构建分句指纹库的步骤后，当需要对某待查文章进行查重时，只需要执行步骤S2、S3和S4即可。分句指纹库可以通过数据库保存，也可以通过内存保存。当分句指纹库采用数据库保存时，可以采用独立的数据库保存，也可以将每个原文的分句指纹信息作为文本的属性保存至文本库内。

步骤S3是通过待查文章各个分句的指纹与原文各个分句的指纹的对比，确定原文分句指纹与待查文章分句指纹相同的分句和分句的位置，得到重复分句和重复分句在原文中的位置。步骤S4是根据重复分句在原文中的位置，判断重复分句在原文中的间隔是否小于M；假如重复分句在原文中的间隔小于M，则待查文章与原文的内容有重复。其中M为预先设定的常量，可以是2或3或5。步骤S3和步骤S4是连续的过程，即，步骤S3的输出直接作为步骤S4判重的输入依据。步骤S3和S4有两种实施方式：第一种实施方式是对文本库中各个原文逐个与待查文章比较分句的指纹，这种实施方式如图1所示，当一个原文判重结束后执行下一个原文的判重。第二种实施方式是首先在步骤S3中找出在文本库中所有的与待查文章分句指纹相同的分句，然后在步骤S4中一次性地找出符合“重复分句在原文中的间隔小于M”条件的各个原文。其中第一种实施方式适用于前述的“每个原文的分句指纹信息作为文本的属性保存至文本库内”和 “未构建分句指纹库”的情形，第二种实施方式适用于前述的“分句指纹库采用独立的数据库保存”和“通过内存保存分句指纹库”的情形。本发明优先第二种实施方式。需要说明的是，根据本发明的方法，找到的与待查文章具有相同内容的原文可能有多个。

下面用具体的数据演示说明本发明的过程。设文本库中的文本为：P ₁，P ₂，P ₃，...，P _n。待查文章的文本为R。文本库中的各个文本拆分分句后如下：

P ₁={ P _1,1，P _1,2，P _1,3，...，P _1,m1 }；

P ₂={ P _2,1，P _2,2，P _2,3，...，P _2,m2 }；

P ₃={ P _3,1，P _3,2，P _3,3，...，P _3,m3 }；

P _n={ P _n,1，P _n,2，P _n,3，...，P _n,mn }。

上述m1，m2，m3，...，mn分别为文本P ₁，P ₂，P ₃，...，P _n的分句数。经计算指纹后得到各个文本的指纹如下所示：

P ₁={ h _1,1，h _1,2，h _1,3，...，h _1,m1 }；

P ₂={ h _2,1，h _2,2，h _2,3，...，h _2,m2 }；

P ₃={ h _3,1，h _3,2，h _3,3，...，h _3,m3 }；

P _n={ h _n,1，h _n,2，h _n,3，...，h _n,mn }。

分句指纹库，文本库中各个原文的分句的指纹和分句的位置对应关系表如下所示：

{ P ₁，h _1,1，1}，

{ P ₁，h _1,2，2}，

{ P ₁，h _1,3，3}，

{ P ₁，h _1,m1，m1}，

{ P ₂，h _2,1，1}，

{ P _n，h _n,mn，mn}。

待查文章的文本R的各个分句为：R={ S ₁，S ₂，S ₃，...，S _R }。计算待查文章的各个分句指纹为：{ k ₁，k ₂，k ₃，...，k _R }。经步骤S3得到重复分句序列为：{ S ₂，P ₁，3}，{ S ₃，P ₁，4}，{ S ₄，P ₂，6}，{ S ₈，P ₂，8}，{ S ₉，P ₁，7}。上述重复分句序列{}结构中，第一个是待查文章的分句序号，第二个为文本库中原文的ID，第三个为原文中分句的序号。上述重复分句中，分句S ₂和S ₃在原文P ₁中的间隔为1，分句S ₃和S ₉在原文P ₁中的间隔为3，分句S ₄和S ₈在原文P ₂中的间隔为2。假设M为2，则原文P ₁与文本R具有相同内容。假如M选3，则原文P ₁和P ₂均与文本R具有相同内容。

Claims

1.一种论文查重的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的论文查重的方法，其特征在于，还包括构建分句指纹库的步骤；所述构建分句指纹库的步骤为对文本库中各个原文进行分句，并计算各个原文每个分句的指纹得到分句指纹库；所述的分句指纹库保存了文本库中各个原文的分句的指纹和分句的位置对应关系表。