CN104050299A - 一种论文查重的方法 - Google Patents

一种论文查重的方法 Download PDF

Info

Publication number
CN104050299A
CN104050299A CN201410319183.3A CN201410319183A CN104050299A CN 104050299 A CN104050299 A CN 104050299A CN 201410319183 A CN201410319183 A CN 201410319183A CN 104050299 A CN104050299 A CN 104050299A
Authority
CN
China
Prior art keywords
subordinate sentence
fingerprint
original text
text
checked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410319183.3A
Other languages
English (en)
Inventor
严敏
林文荟
杨华
刘志程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU WISEDU INFORMATION TECHNOLOGY Co Ltd
Original Assignee
JIANGSU WISEDU INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU WISEDU INFORMATION TECHNOLOGY Co Ltd filed Critical JIANGSU WISEDU INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410319183.3A priority Critical patent/CN104050299A/zh
Publication of CN104050299A publication Critical patent/CN104050299A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种论文查重的方法。该方法通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复分句在原文中的位置,然后判断重复分句在原文中的间隔是否小于M,假如重复分句在原文中的间隔小于M,则待查文章在文本库中内容有重复。本发明的论文查重的方法判重速率和响应速度快,通过精确到分句的对比可以从多个原始论文中多处摘抄中找出摘抄的原始论文。

Description

一种论文查重的方法
技术领域
本发明涉及论文查重的技术。
背景技术
目前论文查重方法主要有三种:基于字符串匹配的方法,基于文档指纹的方法和基于语义知识的方法。
基于字符串匹配的方法是一种基于数理统计的方法。它先通过字符串匹配算法,找出待检测文档与数据库中的文档相匹配的字符串数目,随后利用相似性计算公式求出结果。这种方法对字符串的选取要求很高,同时字符串匹配算法的时间复杂度较高,需要较大的资源开销和较长的计算时间。
基于文档指纹的方法通过将代表文档语义的文本作为“指纹”,通过比较“指纹”从而达到判别抄袭的目的。在选取“指纹”的过程中可能受到文章的层次结构的影响而造成漏判。
基于语义知识的方法是通过分析比较待检测文章与数据库文章的自然语义相似程度从而达到判别抄袭的目的。该方法依赖于自然语言相似性的计算,由于中文语言的复杂性,基于语义知识的判断结果正确性很难得到保证。
针对目前的查重技术,如果论文作者在同一段落,尽可能多的选择多篇文献,从每篇参考文献中摘取部分子句到同一段落,不会被论文查重***快速检测出来。
发明内容
本发明所要解决的问题:如果论文作者选择多篇文献,从每篇参考文献中摘取部分子句,则不会被目前的论文查重***快速检测出来。
为解决上述问题,本发明采用的方案如下:
一种论文查重的方法,包括以下步骤:
S1:对文本库中的原文进行分句,并计算原文每个分句的指纹;
S2:对待查文章进行分句,并计算待查文章每个分句的指纹;
S3:通过待查文章各个分句的指纹与原文各个分句的指纹的对比,确定原文分句指纹与待查文章分句指纹相同的分句和分句的位置,得到重复分句和重复分句在原文中的位置;
S4:根据重复分句在原文中的位置,判断重复分句在原文中的间隔是否小于M;假如重复分句在原文中的间隔小于M,则待查文章与原文的内容有重复;其中M为预先设定的常量。
进一步,根据本发明的论文查重的方法,还包括构建分句指纹库的步骤;所述构建分句指纹库的步骤为对文本库中各个原文进行分句,并计算各个原文每个分句的指纹得到分句指纹库;所述的分句指纹库保存了文本库中各个原文的分句的指纹和分句的位置对应关系表。
本发明的技术效果如下:
1. 本发明通过指纹对比,计算开销低,判重速率快,响应速度快。
2. 精确到分句的判别方法,可以更加准确地对抄袭的现象进行判别。
3. 可以精确还原被抄袭的段落及子句内容,为论文查重提供有力证据。
4. 可以从多个原始论文中多处摘抄中找出摘抄的原始论文。
附图说明
图1本发明论文查重方法的流程图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
本发明通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复分句在原文中的位置,然后判断重复分句在原文中的间隔是否小于M,假如重复分句在原文中的间隔小于M,则待查文章在文本库中内容有重复。如图1所示,包括步骤:
S1:计算文本库中原文各个分句的指纹;
S2:计算待查文章的各个分句的指纹;
S3:找出重复分句和重复分句在原文中的位置;
S4:判断重复分句在原文中的间隔是否小于M。
这里的原文是指文本库中的文献文本。步骤S1和S2中计算指纹的过程实际上包含了两个步骤:对文本进行分句的步骤和计算分句指纹的步骤。对文本进行分句的步骤是指将文本根据分割符进行分割成多个句子的过程。分割符可以是句号、感叹号、问号、分号、分段符等等。文本分割后得到的句子称为分句。文本所有的分句按顺序组合后成文原始文本。计算分句指纹的步骤是采用哈希函数对分句进行运算的过程。这里的哈希函数是指单向散列函数,比如MD5、SHA-1、SHA-2、SHA-3等等。通过采用哈希函数对分句进行运算后得到分句的哈希值,该哈希值即可作为该分句的指纹。
图1中的整体过程是本发明的一实施例。更为通常的情形,步骤S1从属于初始化的步骤。该初始化的步骤又可以称为构建分句指纹库的步骤。构建分句指纹库的步骤为对文本库中各个原文进行分句,并计算各个原文每个分句的指纹得到分句指纹库。分句指纹库保存了文本库中各个原文的分句的指纹和分句的位置对应关系表。有了初始化的构建分句指纹库的步骤后,当需要对某待查文章进行查重时,只需要执行步骤S2、S3和S4即可。分句指纹库可以通过数据库保存,也可以通过内存保存。当分句指纹库采用数据库保存时,可以采用独立的数据库保存,也可以将每个原文的分句指纹信息作为文本的属性保存至文本库内。
步骤S3是通过待查文章各个分句的指纹与原文各个分句的指纹的对比,确定原文分句指纹与待查文章分句指纹相同的分句和分句的位置,得到重复分句和重复分句在原文中的位置。步骤S4是根据重复分句在原文中的位置,判断重复分句在原文中的间隔是否小于M;假如重复分句在原文中的间隔小于M,则待查文章与原文的内容有重复。其中M为预先设定的常量,可以是2或3或5。步骤S3和步骤S4是连续的过程,即,步骤S3的输出直接作为步骤S4判重的输入依据。步骤S3和S4有两种实施方式:第一种实施方式是对文本库中各个原文逐个与待查文章比较分句的指纹,这种实施方式如图1所示,当一个原文判重结束后执行下一个原文的判重。第二种实施方式是首先在步骤S3中找出在文本库中所有的与待查文章分句指纹相同的分句,然后在步骤S4中一次性地找出符合“重复分句在原文中的间隔小于M”条件的各个原文。其中第一种实施方式适用于前述的“每个原文的分句指纹信息作为文本的属性保存至文本库内”和 “未构建分句指纹库”的情形,第二种实施方式适用于前述的“分句指纹库采用独立的数据库保存”和“通过内存保存分句指纹库”的情形。本发明优先第二种实施方式。需要说明的是,根据本发明的方法,找到的与待查文章具有相同内容的原文可能有多个。
下面用具体的数据演示说明本发明的过程。设文本库中的文本为:P 1 P 2 P 3 ,...,P n 。待查文章的文本为R。文本库中的各个文本拆分分句后如下:
P 1 ={ P 1,1 P 1,2 P 1,3 ,...,P 1,m1  };
P 2 ={ P 2,1 P 2,2 P 2,3 ,...,P 2,m2  };
P 3 ={ P 3,1 P 3,2 P 3,3 ,...,P 3,m3  };
P n ={ P n,1 P n,2 P n,3 ,...,P n,mn  }。
上述m1m2m3,...,mn分别为文本P 1 P 2 P 3 ,...,P n 的分句数。经计算指纹后得到各个文本的指纹如下所示:
P 1 ={ h 1,1 h 1,2 h 1,3 ,...,h 1,m1  };
P 2 ={ h 2,1 h 2,2 h 2,3 ,...,h 2,m2  };
P 3 ={ h 3,1 h 3,2 h 3,3 ,...,h 3,m3  };
P n ={ h n,1 h n,2 h n,3 ,...,h n,mn  }。
分句指纹库,文本库中各个原文的分句的指纹和分句的位置对应关系表如下所示:
{ P 1 h 1,1 ,1},
{ P 1 h 1,2 ,2},
{ P 1 h 1,3 ,3},
{ P 1 h 1,m1 m1},
{ P 2 h 2,1 ,1},
{ P n h n,mn mn}。
待查文章的文本R的各个分句为:R={ S 1 S 2 S 3 ,...,S R  }。计算待查文章的各个分句指纹为:{ k 1 k 2 k 3 ,...,k R  }。经步骤S3得到重复分句序列为:{ S 2 P 1 ,3},{ S 3 P 1 ,4},{ S 4 P 2 ,6},{ S 8 P 2 ,8},{ S 9 P 1 ,7}。上述重复分句序列{}结构中,第一个是待查文章的分句序号,第二个为文本库中原文的ID,第三个为原文中分句的序号。上述重复分句中,分句S 2 S 3 在原文P 1 中的间隔为1,分句S 3 S 9 在原文P 1 中的间隔为3,分句S 4 S 8 在原文P 2 中的间隔为2。假设M为2,则原文P 1 与文本R具有相同内容。假如M选3,则原文P 1 P 2 均与文本R具有相同内容。

Claims (2)

1.一种论文查重的方法,其特征在于,包括以下步骤:
S1:对文本库中的原文进行分句,并计算原文每个分句的指纹;
S2:对待查文章进行分句,并计算待查文章每个分句的指纹;
S3:通过待查文章各个分句的指纹与原文各个分句的指纹的对比,确定原文分句指纹与待查文章分句指纹相同的分句和分句的位置,得到重复分句和重复分句在原文中的位置;
S4:根据重复分句在原文中的位置,判断重复分句在原文中的间隔是否小于M;假如重复分句在原文中的间隔小于M,则待查文章与原文的内容有重复;其中M为预先设定的常量。
2.如权利要求1所述的论文查重的方法,其特征在于,还包括构建分句指纹库的步骤;所述构建分句指纹库的步骤为对文本库中各个原文进行分句,并计算各个原文每个分句的指纹得到分句指纹库;所述的分句指纹库保存了文本库中各个原文的分句的指纹和分句的位置对应关系表。
CN201410319183.3A 2014-07-07 2014-07-07 一种论文查重的方法 Pending CN104050299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410319183.3A CN104050299A (zh) 2014-07-07 2014-07-07 一种论文查重的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410319183.3A CN104050299A (zh) 2014-07-07 2014-07-07 一种论文查重的方法

Publications (1)

Publication Number Publication Date
CN104050299A true CN104050299A (zh) 2014-09-17

Family

ID=51503131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410319183.3A Pending CN104050299A (zh) 2014-07-07 2014-07-07 一种论文查重的方法

Country Status (1)

Country Link
CN (1) CN104050299A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699785A (zh) * 2015-03-10 2015-06-10 中国石油大学(华东) 一种论文相似度检测方法
CN106776880A (zh) * 2016-11-22 2017-05-31 广东技术师范学院 一种基于图文识别的论文重查***及其方法
CN107038216A (zh) * 2017-03-09 2017-08-11 百度在线网络技术(北京)有限公司 论文查重方法、装置、设备及存储介质
CN107169065A (zh) * 2017-05-05 2017-09-15 腾讯科技(深圳)有限公司 一种特定内容的去除方法和装置
CN107871002A (zh) * 2017-11-10 2018-04-03 哈尔滨工程大学 一种基于指纹融合的跨语言剽窃检测方法
CN108984493A (zh) * 2018-07-19 2018-12-11 中国联合网络通信集团有限公司 一种中文文章查重方法和***
CN109471921A (zh) * 2018-11-23 2019-03-15 深圳市元征科技股份有限公司 一种文本查重方法、装置及设备
CN110019674A (zh) * 2017-11-21 2019-07-16 盛霆信息技术(上海)有限公司 一种文本抄袭检测方法及***
CN110162752A (zh) * 2019-05-13 2019-08-23 百度在线网络技术(北京)有限公司 文章判重处理方法、装置及电子设备
CN114357977A (zh) * 2022-03-18 2022-04-15 北京创新乐知网络技术有限公司 一种反抄袭实现方法、***、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040039933A1 (en) * 2002-08-26 2004-02-26 Cricket Technologies Document data profiler apparatus, system, method, and electronically stored computer program product
CN101076800A (zh) * 2004-08-23 2007-11-21 汤姆森环球资源公司 重复文档检测及表示功能

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040039933A1 (en) * 2002-08-26 2004-02-26 Cricket Technologies Document data profiler apparatus, system, method, and electronically stored computer program product
CN101076800A (zh) * 2004-08-23 2007-11-21 汤姆森环球资源公司 重复文档检测及表示功能

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
俞昊旻: "文档部分重复检测研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699785A (zh) * 2015-03-10 2015-06-10 中国石油大学(华东) 一种论文相似度检测方法
CN106776880A (zh) * 2016-11-22 2017-05-31 广东技术师范学院 一种基于图文识别的论文重查***及其方法
CN107038216A (zh) * 2017-03-09 2017-08-11 百度在线网络技术(北京)有限公司 论文查重方法、装置、设备及存储介质
CN107038216B (zh) * 2017-03-09 2021-10-26 百度在线网络技术(北京)有限公司 论文查重方法、装置、设备及存储介质
CN107169065A (zh) * 2017-05-05 2017-09-15 腾讯科技(深圳)有限公司 一种特定内容的去除方法和装置
CN107169065B (zh) * 2017-05-05 2022-06-14 腾讯科技(深圳)有限公司 一种特定内容的去除方法和装置
CN107871002B (zh) * 2017-11-10 2021-03-30 哈尔滨工程大学 一种基于指纹融合的跨语言剽窃检测方法
CN107871002A (zh) * 2017-11-10 2018-04-03 哈尔滨工程大学 一种基于指纹融合的跨语言剽窃检测方法
CN110019674A (zh) * 2017-11-21 2019-07-16 盛霆信息技术(上海)有限公司 一种文本抄袭检测方法及***
CN108984493A (zh) * 2018-07-19 2018-12-11 中国联合网络通信集团有限公司 一种中文文章查重方法和***
CN108984493B (zh) * 2018-07-19 2022-04-29 中国联合网络通信集团有限公司 一种中文文章查重方法和***
CN109471921A (zh) * 2018-11-23 2019-03-15 深圳市元征科技股份有限公司 一种文本查重方法、装置及设备
CN110162752A (zh) * 2019-05-13 2019-08-23 百度在线网络技术(北京)有限公司 文章判重处理方法、装置及电子设备
CN114357977A (zh) * 2022-03-18 2022-04-15 北京创新乐知网络技术有限公司 一种反抄袭实现方法、***、设备及存储介质
CN114357977B (zh) * 2022-03-18 2022-06-14 北京创新乐知网络技术有限公司 一种反抄袭实现方法、***、设备及存储介质

Similar Documents

Publication Publication Date Title
CN104050299A (zh) 一种论文查重的方法
CN106294350B (zh) 一种文本聚合方法及装置
CN103970722B (zh) 一种文本内容去重的方法
Tolias et al. Visual query expansion with or without geometry: refining local descriptors by feature aggregation
CN105224518B (zh) 文本相似度的计算方法及***、相似文本的查找方法及***
Nguyen et al. Joint learning of local and global features for entity linking via neural networks
CN103617157A (zh) 基于语义的文本相似度计算方法
Usbeck et al. AGDISTIS–agnostic disambiguation of named entities using linked open data
WO2012169128A1 (ja) 表記ゆれ検出装置及び表記ゆれ検出プログラム
Rao et al. External & intrinsic plagiarism detection: VSM & discourse markers based approach
Castillo et al. Unsupervised Method for the Authorship Identification Task.
US20150039290A1 (en) Knowledge-rich automatic term disambiguation
US8370390B1 (en) Method and apparatus for identifying near-duplicate documents
CN105630769B (zh) 文档主题词提取方法及装置
JP2021501387A (ja) 自然言語処理のための表現を抽出するための方法、コンピュータ・プログラム及びコンピュータ・システム
CN112534507B (zh) 用于测序读值的分组和折叠的***和方法
CN103049434A (zh) 一种变形词证认***及证认方法
Crocetti Textual spatial cosine similarity
CN103793398B (zh) 检测垃圾数据的方法和装置
Cárdenas-Montes Depth-based outlier detection algorithm
KR101113787B1 (ko) 텍스트 색인 장치 및 방법
CN108021951A (zh) 一种文档检测的方法、服务器及计算机可读存储介质
CN108415889A (zh) 一种基于带权一次置换哈希算法的文本相似性检测方法
CN104392002B (zh) 一种大规模网页集合的近似重复查找方法
Abu Hawas et al. Rule-based approach for Arabic root extraction: new rules to directly extract roots of Arabic words

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140917

RJ01 Rejection of invention patent application after publication