CN104699785A

CN104699785A - 一种论文相似度检测方法

Info

Publication number: CN104699785A
Application number: CN201510112689.1A
Authority: CN
Inventors: 庞善臣; 查杨; 刘婷; 梁燕燕
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2015-03-10
Filing date: 2015-03-10
Publication date: 2015-06-10

Abstract

本发明提出了一种论文相似度检测方法，后台实现语言为Java，前台实现语言为JSP，将检测文本调整好之后便可进行相似度检测，***会将检测文本与论文库中的文本进行比对，输出疑似抄袭的段落与论文库中对应的段落，同时***还会对这些疑似抄袭段落进行更精确的匹配，若检测结果为确实抄袭，则会将抄袭部分标红。本发明的论文相似度检测方法可以通过计算机自动比对检测文本与论文库中论文的相似度，克服了主观性因素对判断的影响；通过停用词删除和句子筛选，极大减小了检测工作量，提高了检测效率；对于疑似抄袭段落进行精确匹配，确认是否抄袭，相似度检测精度高。

Description

一种论文相似度检测方法

技术领域

本发明涉及计算机领域，特别涉及一种论文相似度检测方法。

背景技术

我国的科技期刊达五千余种，每年产出数百万篇学术论文，但与国际顶级期刊相比，无论是权威性还是影响力，均相距甚远。国内科技期刊面临的问题之一是缺乏编辑独立性，重形式轻学术，存在大量造假、抄袭问题。

现有的论文审核方式主要还是通过审稿人人工审核，通过审稿人的经验和记忆判别论文的相似度，无论是判别的效率和精确度都有很大的主观因素，造成大量造假和抄袭论文的发表。

因此，如何提供一种快速、智能化的论文相似度检测方法，是目前亟待解决的问题。

发明内容

本发明提出一种论文相似度检测方法，解决了现有技术中人工审核论文相似度效率低、精确度差的问题。

本发明的技术方案是这样实现的：

一种论文相似度检测方法，后台实现语言为Java，前台实现语言为JSP，包括以下步骤：

步骤(a)，对检测文本进行中文分词；

步骤(b)，对分词后的文本进行停用词处理，若属于停用词则在文本中删除，文本中剩余的词属于关键词；

步骤(c)，对句子进行筛选，将关键词数目小于预设值K的句子删除；

步骤(d)，对句子筛选后的文本中的每个词通过GB2312编码方式进行编码；

步骤(e)，对所述编码通过指纹选择函数删除不必要的编码，得到检测文本的指纹序列；

步骤(f)，将所述指纹序列与论文库中的指纹序列进行比对，若有连续重叠，则重叠部分定义为疑似抄袭段落；

步骤(g)，将所述疑似抄袭部分定位到论文库中相应文档的相应段落，通过字符串匹配方式进行精确匹配，确认为精确匹配后定义为抄袭段落。

可选地，所述步骤(b)具体为：通过文本处理函数对分词后的文本进行处理，文本处理函数无传入参数，对指定目录下的txt文本进行处理，将txt文本中的内容进行去除停用词处理，处理完成后，以段落为单位放入Arraylist数组中返回。

可选地，所述步骤(c)具体为：通过句子选择函数对句子进行筛选，句子选择函数的传入参数为以段落为单位的Arraylist数组，对Arraylist数组中的每个成员进行句子筛选，去掉关键词数目小于预设值K的句子，然后再将Arraylist数组返回。

可选地，所述步骤(d)具体为：通过文本编码函数对句子筛选后的文本进行编码，传入参数为经过句子筛选后的Arraylist数组，对传入的Arraylist数组中每个元素的词通过GB2312编码方式映射出其编码值；然后，将所有的编码值以三维数组返回，三维数组的构成为：文本的每一段为一维，每一段的每个句子为一维，每个句子中的每个词为一维。

可选地，所述步骤(e)中，指纹选择函数的传入参数为经过文本编码的三维数组，对传入的三维数组中的元素进行筛选，选择其中的最大值，选出的编码值作为文本的指纹，返回值为经过筛选后的三维数组。

可选地，所述步骤(f)中，通过相似度检测函数将所述指纹序列与论文库中的指纹序列进行比对，相似度检测函数的传入参数是检测文本的指纹，传出参数是一个整型数组，将待检测文本的指纹与论文库中文本的指纹进行比对，查找重叠度超过阈值的匹配，将位置信息放在所述整型数组中返回。

可选地，所述阈值的初始设定为0.2。

可选地，所述步骤(g)具体包括：相似内容标识函数，传入参数para1为检测文本疑似抄袭段落，传入参数para2为论文库中相对应的段落，传入参数name为论文库中相对应的论文名称，传出参数为一个整型数组，里面记录了重叠的文字在检测文本中的位置；相似内容标识函数对检测文本的para1段与论文库中的name文本的para2段进行精确匹配，确认是否抄袭，并将抄袭段落在检测文本中的全局位置返回。

可选地，所述检测文本为pdf文件时，先将pdf文件转换为txt文档。

本发明的有益效果是：

(1)可以通过计算机自动比对检测文本与论文库中论文的相似度，克服了主观性因素对判断的影响；

(2)通过停用词删除和句子筛选，极大减小了检测工作量，提高了检测效率；

(3)对于疑似抄袭段落进行精确匹配，确认是否抄袭，相似度检测精度高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种论文相似度检测方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的论文相似度检测方法将检测文本调整好之后便可进行相似度检测，***会将检测文本与论文库中的文本进行比对，输出疑似抄袭的段落与论文库中对应的段落。同时***还会对这些疑似抄袭段落进行更精确的匹配，若检测结果为确实抄袭，则会将抄袭部分标红。

本发明的论文相似度检测方法，后台实现语言为Java，前台实现语言为JSP。若用户检测文本为pdf文档，则***会先通过外部xpdf软件调用方式将pdf文档转换为普通txt文本，之后对检测文本进行相似度检测。下面结合附图对本发明的方法进行详细说明。

如图1所示，本发明的论文相似度检测方法包括以下步骤：

步骤(a)，对检测文本进行中文分词。本发明采用ICTCLAS 2011进行中文分词，ICTCLAS为中国科学院计算技术研究所研制出的汉语词法分析***，主要功能包括中文分词、词性标注、命名实体识别、新词识别、同时支持用户词典，分词速度500KB/s左右，分词精度98.45％，API不超过100KB，各种词典数据压缩后不到3M。本领域技术人员还可以根据检测需求选用其他的分词***。

步骤(b)，对分词后的文本进行停用词处理，若属于停用词则在文本中删除，文本中剩余的词属于关键词。停用词为文章中没有实际意义的词，这些词在相似度检测时会占用***资源，并且影响精确度，所以需要去掉。本发明的停用词表采用四川大学机器智能实验室停用词库，以段落为单位将所有词语在停用词表中遍历，若属于停用词则在文本中删除。处理完成之后，文本中剩下的词都属于关键词。

步骤(c)，对句子进行筛选，选择关键词数量多的句子，这种句子具有较强的代表性，含有关键词数量较少的句子也进行检测处理的话，只会增加噪声，降低精度，所以***会将关键词数目小于预设值K(例如K＝8)的句子删除，以减少噪声，提高检测精度，同时提高检测效率。

步骤(d)，句子筛选完成之后的文本才是将要进行处理的文本，对每个词通过GB2312编码方式进行编码。

步骤(e)，对上述编码通过指纹选择函数删除不必要的编码，得到检测文本的指纹序列。

步骤(f)，将所述指纹序列与论文库中的指纹序列进行比对，若有连续重叠，则重叠部分定义为疑似抄袭段落。

步骤(g)，将上述疑似抄袭部分定位到论文库中相应文档的相应段落，通过字符串匹配方式进行精确匹配，确认为精确匹配后定义为抄袭段落，将抄袭部分标红处理。例如检测粒度为14，连续14个字以上抄袭的部分都会被标红。

本发明的论文相似度检测方法的各个步骤通过相应的函数实现，具体包括：

pdf文档处理函数，对于pdf文件，***将pdf文件存储在特定目录下，当调用此函数时，***会处理该pdf文件，处理完成后在指定的目录输出txt文档，无返回值。

文本读取函数，传入参数为txt文本在当前项目中的相对路径，将文本内容作为字符串返回。

文本写入函数，传入参数有两个，第一个为待写入文本的字符串，第二个为需要写入的路径，函数的功能是将字符串写入指定目录下的txt文件中，无返回值。

文本处理函数，在上述步骤(b)中，通过文本处理函数对分词后的文本进行处理，文本处理函数无传入参数，对指定目录下的txt文本进行处理，将txt文本中的内容进行去除停用词处理，处理完成后，以段落为单位放入Arraylist数组中返回。

句子选择函数，在上述步骤(c)中，通过句子选择函数对句子进行筛选，句子选择函数的传入参数为以段落为单位的Arraylist数组，对Arraylist数组中的每个成员进行句子筛选，去掉关键词数目小于预设值K的句子，然后再将Arraylist数组返回。

文本编码函数，在上述步骤(d)中，通过文本编码函数对句子筛选后的文本进行编码，传入参数为经过句子筛选后的Arraylist数组，对传入的Arraylist数组中每个元素的词通过GB2312编码方式映射出其编码值；然后，将所有的编码值以三维数组返回，三维数组的构成为：文本的每一段为一维，每一段的每个句子为一维，每个句子中的每个词为一维。

指纹选择函数，在上述步骤(e)中，指纹选择函数的传入参数为经过文本编码的三维数组，对传入的三维数组中的元素进行筛选，使选出的元素能够更好的代表原文本的内容，减少下一步的运算量，本发明的筛选标准是选择其中的最大值，选出的编码值作为文本的指纹，返回值为经过筛选后的三维数组。

相似度检测函数，在上述步骤(f)中，通过相似度检测函数将所述指纹序列与论文库中的指纹序列进行比对。相似度检测函数的传入参数是检测文本的指纹，传出参数是一个整型数组，里面记录了重叠的文字在文本中的位置，以便后续将该位置的文字标红。相似度检测函数将待检测文本的指纹与论文库中文本的指纹进行比对，查找重叠度超过阈值的匹配，将位置信息放在所述整型数组中返回。优选地，上述阈值的初始设定为0.2。

相似内容标识函数，在上述步骤(g)中，相似内容标识函数的传入参数para1为检测文本疑似抄袭段落，传入参数para2为论文库中相对应的段落，传入参数name为论文库中相对应的论文名称，传出参数为一个整型数组，里面记录了重叠的文字在检测文本中的位置；相似内容标识函数对检测文本的para1段与论文库中的name文本的para2段进行精确匹配，确认是否抄袭，并将抄袭段落在检测文本中的全局位置返回。

为了提高显示页面的可视性，本发明还包括内容转换函数，传入参数为文字重叠位置数组和检测文本。内容转换函数将重叠位置的文字加上HTML可以识别的样式后以字符串的形式返回。

本发明的论文相似度检测方法可以通过计算机自动比对检测文本与论文库中论文的相似度，克服了主观性因素对判断的影响；通过停用词删除和句子筛选，极大减小了检测工作量，提高了检测效率；对于疑似抄袭段落进行精确匹配，确认是否抄袭，相似度检测精度高。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种论文相似度检测方法，其特征在于，后台实现语言为Java，前台实现语言为JSP，包括以下步骤：

步骤(a)，对检测文本进行中文分词；

步骤(f)，将检测文本的指纹序列与论文库中的指纹序列进行比对，若有连续重叠，则重叠部分定义为疑似抄袭段落；

2.如权利要求1所述的论文相似度检测方法，其特征在于，所述步骤(b)具体为：通过文本处理函数对分词后的文本进行处理，文本处理函数无传入参数，对指定目录下的txt文本进行处理，将txt文本中的内容进行去除停用词处理，处理完成后，以段落为单位放入Arraylist数组中返回。

3.如权利要求1所述的论文相似度检测方法，其特征在于，所述步骤(c)具体为：通过句子选择函数对句子进行筛选，句子选择函数的传入参数为以段落为单位的Arraylist数组，对Arraylist数组中的每个成员进行句子筛选，去掉关键词数目小于预设值K的句子，然后再将Arraylist数组返回。

4.如权利要求1所述的论文相似度检测方法，其特征在于，所述步骤(d)具体为：通过文本编码函数对句子筛选后的文本进行编码，传入参数为经过句子筛选后的Arraylist数组，对传入的Arraylist数组中每个元素的词通过GB2312编码方式映射出其编码值；然后，将所有的编码值以三维数组返回，三维数组的构成为：文本的每一段为一维，每一段的每个句子为一维，每个句子中的每个词为一维。

5.如权利要求1所述的论文相似度检测方法，其特征在于，所述步骤(e)中，指纹选择函数的传入参数为经过文本编码的三维数组，对传入的三维数组中的元素进行筛选，选择其中的最大值，选出的编码值作为文本的指纹，返回值为经过筛选后的三维数组。

6.如权利要求1所述的论文相似度检测方法，其特征在于，所述步骤(f)中，通过相似度检测函数将所述指纹序列与论文库中的指纹序列进行比对，相似度检测函数的传入参数是检测文本的指纹，传出参数是一个整型数组，将待检测文本的指纹与论文库中文本的指纹进行比对，查找重叠度超过阈值的匹配，将位置信息放在所述整型数组中返回。

7.如权利要求6所述的论文相似度检测方法，其特征在于，所述阈值的初始设定为0.2。

8.如权利要求1所述的论文相似度检测方法，其特征在于，所述步骤(g)具体包括：相似内容标识函数，传入参数para1为检测文本疑似抄袭段落，传入参数para2为论文库中相对应的段落，传入参数name为论文库中相对应的论文名称，传出参数为一个整型数组，里面记录了重叠的文字在检测文本中的位置；相似内容标识函数对检测文本的para1段与论文库中的name文本的para2段进行精确匹配，确认是否抄袭，并将抄袭段落在检测文本中的全局位置返回。

9.如权利要求1所述的论文相似度检测方法，其特征在于，所述检测文本为pdf文件时，先将pdf文件转换为txt文档。