CN112699657A - 一种异常文本的检测方法、装置、电子设备及存储介质 - Google Patents

一种异常文本的检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112699657A
CN112699657A CN202011611515.7A CN202011611515A CN112699657A CN 112699657 A CN112699657 A CN 112699657A CN 202011611515 A CN202011611515 A CN 202011611515A CN 112699657 A CN112699657 A CN 112699657A
Authority
CN
China
Prior art keywords
text
clause
clauses
total number
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011611515.7A
Other languages
English (en)
Inventor
柯维海
陈超鸿
吴树钏
陈杰永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Decheng Big Data Technology Co ltd
Original Assignee
Guangdong Decheng Big Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Decheng Big Data Technology Co ltd filed Critical Guangdong Decheng Big Data Technology Co ltd
Priority to CN202011611515.7A priority Critical patent/CN112699657A/zh
Publication of CN112699657A publication Critical patent/CN112699657A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种异常文本的检测方法、装置、电子设备及存储介质。该方法包括:获取参考文本中的参考分句;获取检测文本中的目标分句;当判定所述目标分句为设定分句时,获取所述设定分句的总数;所述设定分句与所述参考分句相似;根据所述设定分句的总数和所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数获取文本相似度;当所述文本相似度大于第一预设阈值时,则确定所述检测文本为异常文本;由于可以自动检测出抄袭文本,从而提高了检测的准确性。

Description

一种异常文本的检测方法、装置、电子设备及存储介质
技术领域
本申请涉及互联网技术领域,具体而言,涉及一种异常文本的检测方法、装置、电子设备及存储介质。
背景技术
目前随着互联网的普及,抄袭事件频繁发生。以考试中的抄袭为例,高考考试、全国英语四六级考试等重要性考试,都使用了网上评卷***对试卷进行评阅。***的计算机网上阅卷已成为当今考试阅卷的发展潮流和必然趋势。目前的考试阅卷中,阅卷老师在阅卷的过程工作量大,尤其是语文科目。如果遇到考生的作文抄袭作答试卷。这些作文抄袭作答的考生试卷一定程度上会影响老师阅卷的工作效率和准确性。
然而目前的抄袭主要是通过人工进行判断,从而降低了检测的效率。
发明内容
本申请实施例的目的在于提供一种异常文本的检测方法、装置、电子设备及存储介质,可以提高检测的效率。
第一方面,本申请实施例提供了一种异常文本的检测方法,包括以下步骤:
获取参考文本中的参考分句;
获取检测文本中的目标分句;
当判定所述目标分句为设定分句时,获取所述设定分句的总数;所述设定分句与所述参考分句相似;
根据所述设定分句的总数和所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数获取文本相似度;
当所述文本相似度大于第一预设阈值时,则确定所述检测文本为异常文本。
可选地,在本申请实施例所述的异常文本的检测方法中,所述判断所述目标分句是否为设定分句的步骤包括:
计算所述参考分句与所述目标分句之间的相似度,得到分句相似度;
当所述分句相似度大于第二预设阈值时,则确定所述目标分句为设定分句。
可选地,在本申请实施例所述的异常文本的检测方法中,所述计算所述参考分句与所述目标分句之间的相似度,得到分句相似度的步骤包括:
获取所述参考分句中的词语组,得到预设词语组;所述预设词语组包括至少一参考词语;
获取所述目标分句中的词语组,得到目标词语组;所述目标词语组包括至少一目标词语;
获取所述目标分句中等同词语的数量,得到共有数量;所述等同词语包括与所述参考词语相同的目标词语;
根据所述共有数量和所述参考分句中的参考词语的总数以及所述目标分句中的所述目标词语的总数获取所述分句相似度。
可选地,在本申请实施例所述的异常文本的检测方法中,所述根据所述共有数量和所述参考分句中的参考词语的总数以及所述目标分句中的所述目标词语的总数获取所述分句相似度的步骤包括:
获取所述参考分句中的参考词语的总数以及所述目标分句中的所述目标词语的总数中的最大值;
根据所述最大值和所述共有数量获取所述分句相似度。
可选地,在本申请实施例所述的异常文本的检测方法中,所述获取检测文本中的目标分句的步骤包括:
获取检测文本中的文字信息,将所述检测文本中的文字信息分割为多个分句,得到多个候选分句;
判断所述候选分句中是否存在噪声词语;
去除所述候选分句中的噪声词语,将剩余词语作为有效词语;
当所述候选分句中的有效词语的数量大于预设数值时,将所述候选分句作为参考分句。
可选地,在本申请实施例所述的异常文本的检测方法中,所述判断所述候选分句中是否存在噪声词语的步骤包括:
当所述候选分句中的词语与所述预设词语相同时,则判定所述候选分句中存在噪声词语。
可选地,在本申请实施例所述的异常文本的检测方法中,所述根据所述设定分句的总数和所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数获取文本相似度的步骤包括:
获取所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数中的最小值;
根据所述设定分句的总数和最小值获取文本相似度。
第二方面,本申请实施例还提供了一种异常文本的检测装置,包括:
参考获取模块,用于获取参考文本中的参考分句;
检测获取模块,用于获取检测文本中的目标分句;
数量获取模块,用于当判定所述目标分句为设定分句时,获取所述设定分句的总数;所述设定分句与所述参考分句相似;
相似获取模块,用于根据所述设定分句的总数和所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数获取文本相似度;
确定模块,用于当所述文本相似度大于第一预设阈值时,则确定所述检测文本为异常文本。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请实施例提供的异常文本的检测方法、装置、电子设备及存储介质,通过获取参考文本中的参考分句;获取检测文本中的目标分句;当判定所述目标分句为设定分句时,获取所述设定分句的总数;所述设定分句与所述参考分句相似;根据所述设定分句的总数和所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数获取文本相似度;当所述文本相似度大于第一预设阈值时,则确定所述检测文本为异常文本;由于可以自动检测出抄袭文本,从而提高了检测的准确性。。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的异常文本的检测方法的一种流程图。
图2为本申请实施例提供的异常文本的检测方法的另一种流程图。
图3为本申请实施例提供的异常文本的检测装置的第一种结构示意图。
图4为本申请实施例提供的异常文本的检测装置的第二种结构示意图。
图5为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1是本申请一些实施例中的一种异常文本的检测方法的流程图。该异常文本的检测方法包括以下步骤:
S101、获取参考文本中的参考分句;
S102、获取检测文本中的目标分句;
S103、当判定所述目标分句为设定分句时,获取所述设定分句的总数;所述设定分句与所述参考分句相似;
S104、根据所述设定分句的总数和所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数获取文本相似度;
S105、当所述文本相似度大于第一预设阈值时,则确定所述检测文本为异常文本。
其中,在该步骤S101中,其中参考文本预先存储在数据库中的作文,以下简称参考作文,且该参考作文与考题中作文的题材相同。将参考作文用分割符进行分割成多个分句,分割符可以是句号、感叹号、问号、分号以及分段符等等。
其中,在该步骤S102中,其中检测文本为考生作答的作文,以下简称考生作文,且该考生作文与参考作文具有相同的题材。将考生作文用分割符进行分割成多个分句,分割符可以是句号、感叹号、问号、分号以及分段符等等。
其中,在该步骤S103中,其中所述设定分句与所述参考分句相似。在一实施方式中,分别判断考生作文中的每个分句是否与参考作文中的其中一个分句相同或者相似,如果相同或者相似,则获取考生作文中与参考作文中分句相同的分句的总数。如果不相同也不相似,则跳转至下一分句,返回执行步骤S103。
其中,在该步骤S104中,在一实施方式中,相似度等于考生作文中与参考作文中分句相同或者相似的分句的总数除以一个总分句数。总分句数可为所述参考作文中分句的总数以及所述考试作文中目标分句的总数的平均值,也可为所述参考作文中分句的总数以及所述考试作文中目标分句的总数的中的最大值。
其中,在该步骤S105中,第一预设阈值可以根据需求设置,当步骤S014中的相似度大于第一预设阈值时,则确定该考试作文为抄袭作文,否则,不是抄袭作文。
可以理解的是,以上方法不仅可以用于检测考生作文是否存在抄袭,还可应用于检测论文、书籍、期刊等等的抄袭中,具体检测方法与此类似,在此不再赘述。
由上可知,本申请实施例提供的异常文本的检测方法,通过获取参考文本中的参考分句;获取检测文本中的目标分句;当判定所述目标分句为设定分句时,获取所述设定分句的总数;所述设定分句与所述参考分句相似;根据所述设定分句的总数和所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数获取文本相似度;当所述文本相似度大于第一预设阈值时,则确定所述检测文本为异常文本;由于可以自动检测出抄袭文本,从而提高了检测的准确性。
请参照图2,图2是本申请一些实施例中的一种异常文本的检测方法的流程图。该异常文本的检测方法包括以下步骤:
S201、获取参考文本中的参考分句;
S202、获取检测文本中的目标分句;
S203、计算所述参考分句与所述目标分句之间的相似度,得到分句相似度;
S204、当所述分句相似度大于第二预设阈值时,则确定所述目标分句为设定分句,并获取所述设定分句的总数;
S205、根据所述设定分句的总数和所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数获取文本相似度;
S206、当所述文本相似度大于第一预设阈值时,则确定所述检测文本为异常文本。
其中,在该步骤S201中,其中参考文本预先存储在数据库中的作文,以下简称参考作文,且该参考作文与考题中作文的题材相同。将参考作文用分割符进行分割成多个分句,分割符可以是句号、感叹号、问号、分号以及分段符等等。
在一些实施例中,为了进一步提高检测的准备性,所述获取参考文本中的参考分句的步骤可包括:获取参考文本中的文字信息,将所述参考文本中的文字信息分割为多个分句,得到多个初始分句;判断所述初始分句中是否存在噪声词语;去除所述初始分句中的噪声词语,将剩余词语作为有效词语;当所述初始分句中的有效词语的数量大于预设数值时,将所述参考分句作为参考分句。
比如获取参考作文中的全部文字,将全部分子按照进行分割符分割成多个句子,比如原句子“阵阵春风吹过大地,大地变绿了,吹过大树,树叶轻轻摇动,好像在跳舞,吹过小河,河水在欢腾地歌唱。”分割出来的七个句子“阵阵春风吹过大地”、“大地变绿了”、“吹过大树”、“树叶轻轻摇动”、“好像在跳舞”、“吹过小河”、“河水在欢腾地歌唱”。然后对每个句子进行词法分析,将句子分割成词语序列,并保留词语在原有句子出现的先后顺序。第一分句的词语序列为“阵阵、春风、吹过、大地”;第二分句的词语序列为“大地、变绿、了”;第三分句的词语序列为“吹过、大树”;第四分句的词语序列为“树叶、轻轻、摇动”,第五分句的词语序列为“好像、在、跳舞”;第六分句的词语序列为“吹过、小河”;第七分句的词语序列为“河水、在、欢腾地、歌唱”。判断以上词语中是否存在如“不仅、而且、虽然、但是”等等的衔接性词语,如果有,则将上述词语舍弃,将剩余词语作为有效词语。如果没有直接将上述词语作为有效词语。经过去噪后,获取各分句中的有效词语的数量,当所述初始分句中的有效词语的数量大于预设数值时,将上述分句作为参考分句。否则不作为参考分句。
其中,在该步骤S202中,其中检测文本为考生作答的作文,以下简称考生作文,且该考生作文与参考作文具有相同的题材。将考生作文用分割符进行分割成多个分句,分割符可以是句号、感叹号、问号、分号以及分段符等等。
在一些实施例中,为了进一步提高检测的准备性,所述获取检测文本中的目标分句的步骤包括:获取检测文本中的文字信息,将所述检测文本中的文字信息分割为多个分句,得到多个候选分句;判断所述候选分句中是否存在噪声词语;去除所述候选分句中的噪声词语,将剩余词语作为有效词语;当所述候选分句中的有效词语的数量大于预设数值时,将所述候选分句作为参考分句。具体获取步骤与上述步骤S101相同,在此不再赘述。
在一实施方式中,所述判断所述候选分句中是否存在噪声词语的步骤包括:当所述候选分句中的词语与所述预设词语相同时,则判定所述候选分句中存在噪声词语。
例如,预设词语包括“不仅、而且、虽然、但是”等等的衔接性词语。判断每个候选分句的词语中是否有与“不仅、而且、虽然、但是”等等的衔接性词语相同的词语,如果有,则判定所述候选分句中存在噪声词语。如果没有,则判定所述候选分句中不存在噪声词语。
其中,在该步骤S203中,计算参考作文中的各分句与考试作文中各分句的相似度。
在一实施方式中,为了进一步提高准确性,所述计算所述参考分句与所述目标分句之间的相似度,得到分句相似度的步骤包括:获取所述参考分句中的词语组,得到预设词语组;所述预设词语组包括至少一参考词语;获取所述目标分句中的词语组,得到目标词语组;所述目标词语组包括至少一目标词语;获取所述目标分句中等同词语的数量,得到共有数量;所述等同词语包括与所述参考词语相同的目标词语;根据所述共有数量和所述参考分句中的参考词语的总数以及所述目标分句中的所述目标词语的总数获取所述分句相似度。
比如,参考作文中的分句为“阵阵春风吹过大地”,该分句包括4个词语,考试作文的分句为“春风吹拂大地”,该分句包括3个词语。两个句子中的相同词语的数量为2,为“春风”、“大地”,在一实施方式中,相似度等于2/(4+3-2)。当然可以理解的,为了进一步提高准确性,所述等同词语还包括与参考词语相近的目标词语,比如吹拂和吹过为相近的词语,则此时相同词语的数量为3。
在一实施方式中,为了进一步提高准确性,所述根据所述共有数量和所述参考分句中的参考词语的总数以及所述目标分句中的所述目标词语的总数获取所述分句相似度的步骤包括:获取所述参考分句中的参考词语的总数以及所述目标分句中的所述目标词语的总数中的最大值;根据所述最大值和所述共有数量获取所述分句相似度。
比如,考作文中的分句中的词语数量为4个,考试作文的分句中的词语数量为3个。两个句子中的相同词语的数量为2,这两个分句中词语数量最多的为4,在一实施方式中,相似度等于2/4。
其中,在该步骤S204中,其中所述设定分句与所述参考分句相似;第二预设阈值根据需求设置,判断所述分句相似度是否大于第二预设阈值时,如果大于,则确定所述考试作为中的分句为抄袭分句;获取所述考试作文中抄袭分句的总数。如果不大于,则跳转至下一条分句,并返回执行步骤S204。
其中,在该步骤S205中,在一实施方式中,相似度等于抄袭分句的总数除以一个总分句数。总分句数可为所述参考作文中分句的总数以及所述考试作文中目标分句的总数的平均值,也可为所述参考作文中分句的总数以及所述考试作文中目标分句的总数的中的最大值。
在另一实施方式中,所述根据所述设定分句的总数和所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数获取文本相似度的步骤包括:
获取所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数中的最小值;根据所述设定分句的总数和最小值获取文本相似度。
比如考试作文中分句的总数为200,参考作文中分句的总数为150,抄袭分句的总数为80,则该相似度等于80/150,相似度等于53%。
其中,在该步骤S205中,第一预设阈值可以根据需求设置,相似度53%是否大于第一预设阈值时,如果是,则确定该考试作文为抄袭作文,否则,不是抄袭作文。第一预设阈值比如为50%。
可以理解的是,以上方法不仅可以用于检测考生作文是否存在抄袭,还可应用于检测论文、书籍、期刊等等的抄袭中,具体检测方法与此类似,在此不再赘述。
由上可知,本申请实施例提供的异常文本的检测方法,通过获取参考文本中的参考分句;获取检测文本中的目标分句;计算所述参考分句与所述目标分句之间的相似度,得到分句相似度;当所述分句相似度大于第二预设阈值时,则确定所述目标分句为设定分句,获取所述设定分句的总数;所述设定分句与所述参考分句相似;根据所述设定分句的总数和所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数获取文本相似度;当所述文本相似度大于第一预设阈值时,则确定所述检测文本为异常文本;由于在上一实施例的基础上,通过计算所述参考分句与所述目标分句之间的相似度获取分句相似度,从而进一步提高了抄袭文本的准确性。
在一具体实施例中,参考文本库根据考试作文来收录相同题材的作文素材作为参考文本。噪声词语库收录一些衔接性词语作为噪声词,如“不仅、而且、虽然、但是”等等,这些词不是文本句子中重要组成部分,而且还会干扰文本匹配的精准度,也增加了计算的复杂度。
将检测文本A和参考文本B用分割符进行分割成多个分句句子,分割符可以是句号、感叹号、问号、分号、分段符等等。然后通过词法分析,又将分句句子分割成词语序列,并保留词语在原句中的先后顺序。比如,原句子为“阵阵春风吹过大地,大地变绿了,吹过大树,树叶轻轻摇动,好像在跳舞,吹过小河,河水在欢腾地歌唱。”分割出来的词语序列为“阵阵、春风、吹过、大地、大地、变绿、了、吹过、大树、树叶、轻轻、摇动、好像、在、跳舞、吹过、小河、河水、在、欢腾地、歌唱”。
对分割后的句子进行去噪处理,根据噪声词语库提供的噪声词语,如存在“不仅、而且、虽然、但是”等等的衔接性词语,则判定为噪声词语,并将该噪声词语丢弃,去噪后的剩余的词语组成对应的句子。之后将去噪后的句子中筛选出有效句子,有效句子需满足句子的长度必须大于J值,J值可以根据需求设置;且句子中含有词语的数量必须大于K值,K值可以根据需求设置。选出来的有效句子,分别归集到所属的检测文本A集合或参考文本B集合中,检测文本A的有效句子集合为A={Sa1,Sa2,Sa3,...,San},参考文本B的有效句子集合为B={Sb1,Sb2,Sb3,...,Sbn}。
计算两个句子之间的相似度。每个有效句子的结构表示为:S=[Vn,(R1,R2,R3,...,Ri)]。其中Vn是指在文本中有效句子中词语的总数,Ri是指在有效句子中各词语的位置,其顺序要与词语在句子中出现的顺序保持一致。通过求最大公共子序列的方法,获取检测文本A和参考文本B之间中有效句子的相似度,句子之间两两计算。如待检测文本A的句子Sa1与参考文本B的句子Sb1,Sb2,Sb3,...,Sbn分别两两计算,待检测文本A的句子Sa2与参考文本B的句子Sb1,Sb2,Sb3,...,Sbn分别两两计算,如此类推,直到两者的句子全部互相匹配计算过。
句子San和Sbn的相似度计算公式为sim(San,Sbn)=Z/(X+Y-Z)。其中X表示San句子中包含的词语数量,Y表示Sbn句子中包含的词语数量,Z表示San与Sbn之间的最大公共子序列长度。比如,San={a,b,c,d,a},Sbn={a,b,c,e,f},那么最大公共子序列为{a,b,c},故Z=3,所以San和Sbn的相似度为3/(5+5-3)=42.9%。当相似度值42.9%大于G值,才判定San和Sbn存在抄袭嫌疑,G值可以需求设置,之后统计检测文本A与参考文本B存在抄袭的句子的总数P。之后计算两个文本A、B的内容的相似程度,以作为判断是否抄袭的依据。该相似度计算公式为:
Sim(AB)=P/min(PA,PB);
其中,Sim(A,B)表示两个文本的内容的相似程度,min(PA,PB)表示文本A、B中有效句子的总数的最小值。
其中Sim(A,B)数值越大,说明检测文本A存在抄袭的可能越大,当Sim(A,B)数值超过Q值,则确定该检测文本A为有抄袭文本,Q值可以根据需求设置。
请参照图3,图3是本申请实施例还提供了一种异常文本的检测装置的结构示意图。
如图3和图4所示,该装置30包括参考获取模块31、检测获取模块32、数量获取模块33、相似获取模块34以及确定模块35。
参考获取模块31,用于获取参考文本中的参考分句。
检测获取模块32,用于获取检测文本中的目标分句。
数量获取模块33,用于当判定所述目标分句为设定分句时,获取所述设定分句的总数;所述设定分句与所述参考分句相似。
相似获取模块34,用于根据所述设定分句的总数和所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数获取文本相似度。
确定模块35,用于当所述文本相似度大于第一预设阈值时,则确定所述检测文本为异常文本。
在一些实施例中,所述装置还包括:判断模块36。
判断模块36用于:计算所述参考分句与所述目标分句之间的相似度,得到分句相似度;当所述分句相似度大于第二预设阈值时,则确定所述目标分句为设定分句。
在一些实施例中,所述判断模块36,具体用于:获取所述参考分句中的词语组,得到预设词语组;所述预设词语组包括至少一参考词语;获取所述目标分句中的词语组,得到目标词语组;所述目标词语组包括至少一目标词语;获取所述目标分句中等同词语的数量,得到共有数量;所述等同词语包括与所述参考词语相同的目标词语;根据所述共有数量和所述参考分句中的参考词语的总数以及所述目标分句中的所述目标词语的总数获取所述分句相似度。
在一些实施例中,所述判断模块36,还用于:获取所述参考分句中的参考词语的总数以及所述目标分句中的所述目标词语的总数中的最大值根据所述最大值和所述共有数量获取所述分句相似度。
在一些实施例中,所述检测获取模块32,具体用于:获取检测文本中的文字信息,将所述检测文本中的文字信息分割为多个分句,得到多个候选分句;判断所述候选分句中是否存在噪声词语;去除所述候选分句中的噪声词语,将剩余词语作为有效词语;当所述候选分句中的有效词语的数量大于预设数值时,将所述候选分句作为参考分句。
在一些实施例中,所述检测获取模块32,还用于:当所述候选分句中的词语与所述预设词语相同时,则判定所述候选分句中存在噪声词语。
在一些实施例中,所述相似获取模块34,具体用于:获取所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数中的最小值;根据所述设定分句的总数和最小值获取文本相似度。
由上可知,本申请实施例提供的异常文本的检测装置,通过获取参考文本中的参考分句;获取检测文本中的目标分句;当判定所述目标分句为设定分句时,获取所述设定分句的总数;所述设定分句与所述参考分句相似;根据所述设定分句的总数和所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数获取文本相似度;当所述文本相似度大于第一预设阈值时,则确定所述检测文本为异常文本;由于可以自动检测出抄袭文本,从而提高了检测的准确性。
请参照图5,图5为本申请实施例提供的一种电子设备的结构示意图,本申请提供一种电子设备3,包括:处理器301和存储器302,处理器301和存储器302通过通信总线303和/或其他形式的连接机构(未标出)互连并相互通讯,存储器32存储有处理器301可执行的计算机程序,当计算设备运行时,处理器301执行该计算机程序,以执行时执行上述实施例的任一可选的实现方式中的方法。
本申请实施例提供一种存储介质,所述计算机程序被处理器执行时,执行上述实施例的任一可选的实现方式中的方法。其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random AccessMemory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable ProgrammableRead Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种异常文本的检测方法,其特征在于,包括以下步骤:
获取参考文本中的参考分句;
获取检测文本中的目标分句;
当判定所述目标分句为设定分句时,获取所述设定分句的总数;所述设定分句与所述参考分句相似;
根据所述设定分句的总数和所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数获取文本相似度;
当所述文本相似度大于第一预设阈值时,则确定所述检测文本为异常文本。
2.根据权利要求1所述的异常文本的检测方法,其特征在于,所述判断所述目标分句是否为设定分句的步骤包括:
计算所述参考分句与所述目标分句之间的相似度,得到分句相似度;
当所述分句相似度大于第二预设阈值时,则确定所述目标分句为设定分句。
3.根据权利要求2所述的异常文本的检测方法,其特征在于,所述计算所述参考分句与所述目标分句之间的相似度,得到分句相似度的步骤包括:
获取所述参考分句中的词语组,得到预设词语组;所述预设词语组包括至少一参考词语;
获取所述目标分句中的词语组,得到目标词语组;所述目标词语组包括至少一目标词语;
获取所述目标分句中等同词语的数量,得到共有数量;所述等同词语包括与所述参考词语相同的目标词语;
根据所述共有数量和所述参考分句中的参考词语的总数以及所述目标分句中的所述目标词语的总数获取所述分句相似度。
4.根据权利要求3所述的异常文本的检测方法,其特征在于,所述根据所述共有数量和所述参考分句中的参考词语的总数以及所述目标分句中的所述目标词语的总数获取所述分句相似度的步骤包括:
获取所述参考分句中的参考词语的总数以及所述目标分句中的所述目标词语的总数中的最大值;
根据所述最大值和所述共有数量获取所述分句相似度。
5.根据权利要求1所述的异常文本的检测方法,其特征在于,所述获取检测文本中的目标分句的步骤包括:
获取检测文本中的文字信息,将所述检测文本中的文字信息分割为多个分句,得到多个候选分句;
判断所述候选分句中是否存在噪声词语;
去除所述候选分句中的噪声词语,将剩余词语作为有效词语;
当所述候选分句中的有效词语的数量大于预设数值时,将所述候选分句作为参考分句。
6.根据权利要求5所述的异常文本的检测方法,其特征在于,所述判断所述候选分句中是否存在噪声词语的步骤包括:
当所述候选分句中的词语与所述预设词语相同时,则判定所述候选分句中存在噪声词语。
7.根据权利要求1所述的异常文本的检测方法,其特征在于,所述根据所述设定分句的总数和所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数获取文本相似度的步骤包括:
获取所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数中的最小值;
根据所述设定分句的总数和最小值获取文本相似度。
8.一种异常文本的检测装置,其特征在于,包括:
参考获取模块,用于获取参考文本中的参考分句;
检测获取模块,用于获取检测文本中的目标分句;
数量获取模块,用于当判定所述目标分句为设定分句时,获取所述设定分句的总数;所述设定分句与所述参考分句相似;
相似获取模块,用于根据所述设定分句的总数和所述参考文本中的参考分句的总数以及所述检测文本中的目标分句的总数获取文本相似度;
确定模块,用于当所述文本相似度大于第一预设阈值时,则确定所述检测文本为异常文本。
9.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-7任一所述方法中的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-7任一所述方法中的步骤。
CN202011611515.7A 2020-12-30 2020-12-30 一种异常文本的检测方法、装置、电子设备及存储介质 Pending CN112699657A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011611515.7A CN112699657A (zh) 2020-12-30 2020-12-30 一种异常文本的检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011611515.7A CN112699657A (zh) 2020-12-30 2020-12-30 一种异常文本的检测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112699657A true CN112699657A (zh) 2021-04-23

Family

ID=75512547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011611515.7A Pending CN112699657A (zh) 2020-12-30 2020-12-30 一种异常文本的检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112699657A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117874416A (zh) * 2024-01-12 2024-04-12 网才科技(广州)集团股份有限公司 一种试卷断崖式异常分析方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法
CN107391671A (zh) * 2017-07-21 2017-11-24 华中科技大学 一种文档泄露检测方法及***
CN108959261A (zh) * 2018-07-06 2018-12-07 京工博创(北京)科技有限公司 基于自然语言的试卷主观题判题装置及方法
CN109101489A (zh) * 2018-07-18 2018-12-28 武汉数博科技有限责任公司 一种文本自动摘要方法、装置及一种电子设备
CN109145299A (zh) * 2018-08-16 2019-01-04 北京金山安全软件有限公司 一种文本相似度确定方法、装置、设备及存储介质
CN109657213A (zh) * 2018-12-21 2019-04-19 北京金山安全软件有限公司 文本相似度检测方法、装置和电子设备
CN109710834A (zh) * 2018-11-16 2019-05-03 北京字节跳动网络技术有限公司 相似网页检测方法、装置、存储介质及电子设备
CN110110744A (zh) * 2019-03-27 2019-08-09 平安国际智慧城市科技股份有限公司 基于语义理解的文本配对方法、装置及计算机设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法
CN107391671A (zh) * 2017-07-21 2017-11-24 华中科技大学 一种文档泄露检测方法及***
CN108959261A (zh) * 2018-07-06 2018-12-07 京工博创(北京)科技有限公司 基于自然语言的试卷主观题判题装置及方法
CN109101489A (zh) * 2018-07-18 2018-12-28 武汉数博科技有限责任公司 一种文本自动摘要方法、装置及一种电子设备
CN109145299A (zh) * 2018-08-16 2019-01-04 北京金山安全软件有限公司 一种文本相似度确定方法、装置、设备及存储介质
CN109710834A (zh) * 2018-11-16 2019-05-03 北京字节跳动网络技术有限公司 相似网页检测方法、装置、存储介质及电子设备
CN109657213A (zh) * 2018-12-21 2019-04-19 北京金山安全软件有限公司 文本相似度检测方法、装置和电子设备
CN110110744A (zh) * 2019-03-27 2019-08-09 平安国际智慧城市科技股份有限公司 基于语义理解的文本配对方法、装置及计算机设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117874416A (zh) * 2024-01-12 2024-04-12 网才科技(广州)集团股份有限公司 一种试卷断崖式异常分析方法及***

Similar Documents

Publication Publication Date Title
US11687719B2 (en) Post-filtering of named entities with machine learning
CN110765770B (zh) 一种合同自动生成方法及装置
Rothacker et al. Segmentation-free query-by-string word spotting with bag-of-features HMMs
CN112446351B (zh) 医疗票据智能识别方法
CN110196893A (zh) 基于文本相似度的非主观题阅卷方法、装置及存储介质
US20130124439A1 (en) Information extraction system, method, and program
US20200004765A1 (en) Unstructured data parsing for structured information
Brooke et al. Measuring Interlanguage: Native Language Identification with L1-influence Metrics.
AU2010208523A1 (en) Methods and systems for matching records and normalizing names
Volk et al. Detecting code-switching in a multilingual alpine heritage corpus
CN112699657A (zh) 一种异常文本的检测方法、装置、电子设备及存储介质
CN109933648A (zh) 一种真实用户评论的区分方法和区分装置
CN112988962B (zh) 文本纠错方法、装置、电子设备及存储介质
CN108511036A (zh) 一种中文症状标注的方法及***
CN109492396B (zh) 基于语义分割的恶意软件基因快速检测方法和装置
CN110543812A (zh) 信息提取方法及装置、电子设备及存储介质
Kestemont et al. Predicting the past: memory-based copyist and author discrimination in medieval epics
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN112583860B (zh) 一种互联网流量异常检测的方法、装置及设备
CN111353294B (zh) 不良户外广告标语的检测与过滤方法与户外广告播放***
Gedikli et al. Semi-Automated Identification of News Story Chains: A New Dataset and Entity-based Labeling Method.
CN115099213A (zh) 一种信息处理方法和信息处理***
CN111931828B (zh) 一种信息确定方法、电子设备和计算机可读存储介质
Garnier et al. IdentiCyte: Simple red blood cell identification software
Akash et al. A Real Time Approach for Bangla Text Extraction and Translation from Traffic Sign

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination