CN112989793B

CN112989793B - 文章检测方法及装置

Info

Publication number: CN112989793B
Application number: CN202110531324.8A
Authority: CN
Inventors: 杨阳
Original assignee: Changsha Developer Technology Co ltd; Beijing Innovation Lezhi Network Technology Co ltd
Current assignee: Changsha Developer Technology Co ltd; Beijing Innovation Lezhi Network Technology Co ltd
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-08-06
Anticipated expiration: 2041-05-17
Also published as: CN112989793A

Abstract

本申请提供了一种文章检测方法及装置，该文章检测方法包括：服务器将用户设备发送的待检测文章，以第一构建方式生成第一指纹，以第二构建方式生成第二指纹，其中，针对第一指纹设置有基于第一构建方式生成的多个第一索引记录，针对第二指纹设置有基于第二构建方式生成的多个第二索引记录；服务器将第一指纹和第二指纹，分别与多个第一索引记录和多个第二索引记录进行相似度比较，得到第一比较结果和第二比较结果；根据第一比较结果和第二比较结果确定待检测文章的检测结果。本申请的技术方案通过构建并检测两个不同的指纹，有效的减少了原创文章的误判率，提高了相似文本的召回率。

Description

文章检测方法及装置

技术领域

本申请涉及文本检测技术领域，具体涉及一种文章检测方法及装置。

背景技术

随着互联网社区上发表博文的数量日益增多，保护原创文章的难度也越来越大。许多作者标明为原创文章实际上是对另一篇站内文章的转载，并非为原创文章。因此，如何快速识别用户发布的新文章是否为原创文章成为亟需解决的技术问题。

发明内容

有鉴于此，本申请实施例提供了一种文章检测方法及装置，能够有效减少原创文章的误判率。

第一方面，本申请的实施例提供了一种文章检测方法，包括：服务器将用户设备发送的待检测文章，以第一构建方式生成第一指纹，以第二构建方式生成第二指纹，其中，针对第一指纹设置有基于第一构建方式生成的多个第一索引记录，针对第二指纹设置有基于第二构建方式生成的多个第二索引记录；服务器将第一指纹和第二指纹，分别与多个第一索引记录和多个第二索引记录进行相似度比较，得到第一比较结果和第二比较结果；根据第一比较结果和第二比较结果确定待检测文章的检测结果。

在本申请某些实施例中，以第一构建方式生成第一指纹包括：基于待检测文章，获取预设长度的至少一个分句；基于至少一个分句生成至少一个分句分别对应的指纹信息及权重，其中至少一个分句中每个分句的权重为分句的长度；基于至少一个分句分别对应的指纹信息及权重，合并生成待检测文章的第一指纹；以第二构建方式生成第二指纹包括：根据待检测文章中词汇的关联关系，提取至少一个关键词；基于至少一个关键词在待检测文章中出现的频率，确定至少一个关键词分别对应的词频数，并将词频数设置为对应的至少一个关键词的权重；基于至少一个关键词及至少一个关键词对应的权重，生成第二指纹。

在本申请某些实施例中，服务器将第一指纹和第二指纹，分别与多个第一索引记录和多个第二索引记录进行相似度比较，得到第一比较结果和第二比较结果包括：将第一指纹与多个第一索引记录进行相似度比较，获得第一比较结果；将第二指纹与多个第二索引记录进行汉明距离比较，获得第二比较结果，其中检测结果包括原创或非原创。

在本申请某些实施例中，将第一指纹与多个第一索引记录进行相似度比较，获得第一比较结果包括：基于第一指纹与多个第一索引记录，获得第一预定数量的第一索引记录对应的至少一篇文章，其中至少一篇文章中与第一指纹最相似的为第一篇文章；当第一指纹和第一篇文章基于第一构建方式生成的第三指纹相同部分的长度与第三指纹的长度的比值超过第一预设阈值时，生成第一索引结果；和/或当第一指纹和至少一篇文章各自对应的基于第一构建方式生成的第四指纹相同部分的长度与多个第四指纹的总长度的比值超过第二预设阈值时，生成第二索引结果；和/或当第二指纹与第一篇文章对应的基于第二构建方式生成的第五指纹的汉明距离超过第三预设阈值时，生成第三索引结果；基于第一索引结果和/或第二索引结果和/或第三索引结果，确定第一比较结果，其中第一比较结果包括第一篇文章。

在本申请某些实施例中，将第二指纹与多个第二索引记录进行汉明距离比较，获得第二比较结果包括：将第二指纹分为四组指纹；将四组指纹中的每一组指纹分别与多个第二索引记录进行汉明距离比较，获得第二预定数量的第二索引记录对应的多篇文章；当多篇文章各自基于第二构建方式生成的指纹分别与第二指纹的汉明距离未超过第四预设阈值时，获得第二比较结果，其中第二比较结果包括多篇文章中与第二指纹汉明距离最小的第二篇文章。

在本申请某些实施例中，根据第一比较结果和第二比较结果确定待检测文章的检测结果包括：根据第一篇文章的发布时间与第二篇文章的发布时间，生成检测结果，其中检测结果包括非原创，以及第一篇文章和第二篇文章中发布时间较早的文章。

在本申请某些实施例中，在根据第一比较结果和第二比较结果确定待检测文章的检测结果之后，还包括：当检测结果为原创时，将待检测文章的第一指纹作为新的第一索引记录存储在第一索引结构中，以及将第二指纹作为新的第二索引记录存储在第二索引结构中。

在本申请某些实施例中，第一指纹为文件指纹验证MD5指纹，第二指纹为simhash指纹。

第二方面，本申请的实施例提供了一种文章检测装置，包括：生成模块，用于将用户设备发送的待检测文章，以第一构建方式生成第一指纹，以第二构建方式生成第二指纹，其中，针对第一指纹设置有基于第一构建方式生成的多个第一索引记录，针对第二指纹设置有基于第二构建方式生成的多个第二索引记录；比较模块，用于将第一指纹和第二指纹，分别与多个第一索引记录和多个第二索引记录进行相似度比较，得到第一比较结果和第二比较结果；确定模块，用于根据第一比较结果和第二比较结果确定待检测文章的检测结果。

第三方面，本申请的实施例提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器，其中，处理器用于执行上述第一方面所述的文章检测方法。

本申请实施例提供了一种文章检测方法及装置，通过两种不同的构建方式生成两种不同的指纹，并将两种指纹检测的方案相结合来确定待检测文章的检测结果，有效的减少了原创文章的误判率，提高了相似文本的召回率，以此达到保护文章作者的权益，支持原创的目的。

附图说明

图1是本申请一示例性实施例提供的文章检测方法的流程示意图。

图2是本申请一示例性实施例提供的生成第一指纹的流程示意图。

图3是本申请一示例性实施例提供的生成第二指纹的流程示意图。

图4是本申请另一示例性实施例提供的文章检测方法的流程示意图。

图5是本申请一示例性实施例提供的确定第一比较结果的流程示意图。

图6是本申请一示例性实施例提供的确定第二比较结果的流程示意图。

图7是本申请一示例性实施例提供的文章检测装置的结构示意图。

图8是本申请一示例性实施例提供的用于文章检测的电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，主要是应用simhash算法进行文章检测。但由于simhash算法是局部敏感的算法，其对短文本的重复度判断会存在较大的误差，文本篇幅越长判断的准确率越高，因此，对于拼凑的文章（例如a文章由b，c两篇文章拼凑而成）会存在无法有效识别的问题。若是应用MD5指纹进行文章检测，由于其在检测的过程中，需要截取文章中部分句子进行检测，从而导致对篇幅较长的文章依然存在一定误判的概率。

另外，当用户发布的文章为非原创文章时，如何查找出其对应的首次发布的原创文章也是亟待解决的问题。

图1是本申请一示例性实施例提供的文章检测方法的流程示意图。图1的方法由计算设备，例如，服务器，来执行。如图1所示，该文章检测方法包括如下内容。

110：服务器将用户设备发送的待检测文章，以第一构建方式生成第一指纹，以第二构建方式生成第二指纹，其中，针对第一指纹设置有基于第一构建方式生成的多个第一索引记录，针对第二指纹设置有基于第二构建方式生成的多个第二索引记录。

具体地，第一构建方式和第二构建方式为不同的构建指纹的方法，本申请对第一构建方式和第二构建方式的具体方式不作具体限定。例如，在第一指纹为文件指纹验证MD5指纹，第二指纹为simhash指纹的情况下,第一构建方式可以为构建MD5指纹的方式，第二构建方式可以为构建simhash指纹的方式。

根据第一构建方式和第二构建方式可以分别建立两种搜索集群索引（如ElasticSearch集群索引），例如，MD5指纹索引，以及simhash指纹索引。

针对第一构建方式，可以设置有第一索引结构。该第一索引结构可以包括多个第一索引记录。第一索引记录可以是基于第一构建方式构建的需要与待检测文章比较的其余文章（即除待检测文章之外的文章）的指纹信息。每一个第一索引记录可以包括其余文章的身份识别号（IDentity, ID）、创建时间，以及基于第一构建方式生成的指纹。每一个第一索引记录的信息可以以空格分隔，并以text类型存储。

例如，第一指纹为MD5指纹，第一索引结构为MD5指纹索引。相应地，第一索引记录包括文章ID、创建时间，以及生成的MD5指纹。

需要说明的是，第一索引结构包括建立的搜索集群索引。该第一索引结构还可以包括存储多个第一索引记录的首发文章指纹库。当在第一索引结构中查找与第一指纹相似的文章时，相当于是通过搜索集群索引，将第一指纹与首发文章数据库中的多个第一索引记录进行相似度比较。

针对第二构建方式，可以设置有第二索引结构。该第二索引结构可以包括多个第二索引记录。在该第二索引结构中，可以将基于第二构建方式生成的第二指纹（例如，第二指纹可以是一个64位的二进制编码指纹）分为多份（例如，4份）编码。而后将每份编码都作为一个第二索引记录。也就是说，在第二索引结构中，一篇完整的文章可以包括多个第二索引记录。

例如，第二指纹为simhash指纹。第二索引结构为simhash索引结构。在第二索引结构中，将simhash算法生成的64位二进制编码分为4份，即4个16位的二进制编码，每份16位编码都作为一个第二索引记录。

需要说明的是，第二索引结构以及搜索集群索引之间的关系与针对第一索引结构所描述的内容基本相同，详情请参见上述对第一索引结构的描述，为避免重复在此不再赘述。

应当理解，第一索引结构和第二索引结构中的存储的文章数量可以相同，也可以不同。因此，本申请实施例通过将第一指纹检测方案与第二指纹检测方案相结合，同时检索第一索引结构和第二索引结构中的索引记录，扩大了文章检测的范围，确保召回文章的相似度。

120：服务器将第一指纹和第二指纹，分别与多个第一索引记录和多个第二索引记录进行相似度比较，得到第一比较结果和第二比较结果。

具体地，服务器可以将第一指纹与多个第一索引记录进行相似度比较，获取一个第一比较结果，并将第二指纹与多个第二索引记录进行相似度比较，获得一个第二比较结果。

130：根据第一比较结果和第二比较结果确定待检测文章的检测结果。

具体地，第一比较结果可以包括原创或非原创。第二比较结果也可以包括原创或非原创。当且仅当第一比较结果和第二比较结果同为原创时，待检测文章的检测结果为原创；否则，该检测结果为非原创。

由此可知，本申请实施例通过两种不同的构建方式生成两种不同的指纹，并将两种指纹检测的方案相结合，有效的减少了原创文章的误判率，提高了相似文本的召回率，以此达到保护文章作者的权益，支持原创的目的。

图2是本申请一示例性实施例提供的生成第一指纹的流程示意图。如图2所示，该生成第一指纹的方法，包括如下内容。

210：基于待检测文章，获取预设长度的至少一个分句。

具体地，可以基于待检测文章的长度截取至少一个分句，其中在截取分句前可以去除符号和停用词。

在一示例中，当待检测文章的长度大于或等于第一预设阈值（例如，30个分句的长度）时，可以截取待检测文章中长度排名前30的完整句子作为至少一个分句，即该至少一个分句的数量为30。本申请实施例对分句的数量不作具体限定，可根据实际情况进行灵活设置。

当待检测文章的长度小于第一预设阈值且全文长度大于或等于第二预设阈值（例如120个字节）时，截取待检测文章中所有的句子并将其作为至少一个分句。

当待检测文章的长度低于第二预设阈值（例如120个字节）时，则将待检测文章整体作为一个分句。

220：基于至少一个分句生成至少一个分句分别对应的指纹信息及权重。

在一实施例中，至少一个分句中每个分句的权重为该分句的长度。

具体地，针对步骤210获取的至少一个分句可以根据第一构建方式生成至少一个分句（例如30个分句）分别对应的指纹信息及权重，其中该权重可以是该分句本身的长度。

230：基于至少一个分句分别对应的指纹信息及权重，合并生成待检测文章的第一指纹。

具体地，根据至少一个分句（例如30个分句）中每一个分句对应的指纹信息及其长度（即权重），合并生成待检测文章对应的第一指纹。

应当理解，文章的第一指纹的表现形式可以是：第一分句指纹信息与第一分句的长度，第二分句指纹信息与第二分句的长度，第三分句指纹信息与第三分句的长度……且每个分句之间用空格分开。

需要说明的是，第一指纹可以是MD5指纹，通过应用MD5算法的散列能力，使得文章之间的较小差别也会导致MD5指纹完全不一样。

由此可知，本申请实施例将分句的长度作为分句的权重，使得待检测文章的指纹信息与截取的分句的内容及长度相对应，从而使得文章之间较小的差别也会导致生成的指纹信息存在较大的区别。

图3是本申请一示例性实施例提供的生成第二指纹的流程示意图。如图3所示，该生成第二指纹的方法，包括如下内容。

310：根据待检测文章中词汇的关联关系，提取至少一个关键词。

具体地，可以基于textrank算法根据待检测文章中词与词之间的关联关系，抽取待检测文章中的至少一个关键词，关键词的个数可以基于待检测文章的长度动态调整，本申请实施例对关键词的个数不作具体限定。

320：基于所述至少一个关键词在所述待检测文章中出现的频率，确定至少一个关键词分别对应的词频数，并将词频数设置为对应的至少一个关键词的权重。

具体地，需要说明的是textrank算法在提取至少一个关键词时，会为每一个关键词计算一个基于该文章内容的权重。本申请实施例为减少生成第二指纹的随机性，同时弱化部分高频词对指纹生成的影响，应用tfidf算法计算每一个关键词在全文中出现的权重，从而确定每一个关键词在待检测文章中出现的词频数，设定一个词频数的上线，并将该词频数代替textrank算法随机生成的权重。

330：基于至少一个关键词及至少一个关键词对应的权重，生成第二指纹。

在一实施例中，第二指纹为simhash指纹。

具体地，应用指定的函数将每个关键词转换成一系列数字，例如应用hash函数计算每个关键词的hash值，该hash值为二进制数0和1组成的n-bit签字。将每一个关键词对应的一系列数字与其对应的权重进行加权。进而将所有的关键词计算获得的加权结果进行累加，转化成一个序列串。最后将该序列串进行降维处理，例如对累加结果中大于0的置1，否则置0，从而得到待检测文章对应的第二指纹。

由此可知，本申请实施例将词频数作为关键词的权重，提高了部分高频词的权重，减少了生成第二指纹的随机性。

图4是本申请另一示例性实施例提供的文章检测方法的流程示意图。图4的方法由计算设备，例如，服务器，来执行。如图4所示，该文章检测方法包括如下内容。

410：服务器将用户设备发送的待检测文章，以第一构建方式生成第一指纹，以第二构建方式生成第二指纹，其中，针对第一指纹设置有基于第一构建方式生成的多个第一索引记录，针对第二指纹设置有基于第二构建方式生成的多个第二索引记录。

具体地，该步骤与图1中的步骤110基本相同，详情请参见图1的相关记载，为避免重复，在此不再赘述。

420：将第一指纹与多个第一索引记录进行相似度比较，获得第一比较结果。

具体地，第一比较结果包括原创或非原创。

在一示例中，当第一指纹与多个第一索引记录进行相似度比较超出阈值时，第一比较结果为非原创，并且该第一索引记录还会包括：在第一索引结构中，召回的与待检测文章最相似的第一篇文章，详情请参见图5实施例的记载在此不再赘述。

在一示例中，当第一指纹与多个第一索引记录进行相似度比较未超出阈值时，第一比较结果为原创。

430：将第二指纹与多个第二索引记录进行汉明距离比较，获得第二比较结果。

具体地，第二比较结果包括原创或非原创。

在一示例中，当第二比较结果判定为非原创时，该第二比较结果还会包括：在第二索引结构中，召回的与待检测文章最相似的第二篇文章。第二比较结果具体的确定过程，详情请参见图6实施例的记载，为避免重复，在此不再赘述。

440：基于第一比较结果和第二比较结果，确定检测结果。

在一实施例中，检测结果包括原创或非原创。

具体地，检测结果可以根据第一比较结果和第二比较结果确定。

在一示例中，当第一比较结果和第二比较结果同时为原创时，检测结果为原创。

在一示例中，当第一比较结果和第二比较结果中任意一个索引结果为非原创时，检测结果为非原创，并且该检测结果还可以包括与待检测文章最相似的召回文章。其中，当第一篇文章和第二篇文章不相同时，该召回文章可以根据第一篇文章和第二篇文章的发布时间决定，即发布时间较早的文章作为最相似的召回文章发送给用户。当第一篇文章与第二篇文章相同时，则直接将第一篇文章（或第二篇文章）作为最相似的文章发送给用户。

由此可知，本申请实施例通过将两种指纹方案结合，有效的提高了相似文章的召回率。同时，两种指纹方案都可以快速召回相似文章，也使得检测结果的误判率大幅度降低，召回的最相似文章可靠性高。

图5是本申请一示例性实施例提供的确定第一比较结果的流程示意图。该确定第一比较结果的方法，包括如下内容。

510：基于第一指纹与多个第一索引记录，获得第一预定数量的第一索引记录对应的至少一篇文章。

在一实施例中，至少一篇文章中与第一指纹最相似的为第一篇文章。

具体地，一条第一索引记录对应有一篇文章。当在第一索引结构中查找与第一指纹相似的文章时，即相当于将第一指纹与第一索引结构中的多个第一索引记录进行相似度比较，查找包含有相同第一指纹的第一索引记录，而后将第一索引记录对应的文章返回，其中指纹信息相同的部分越多，返回的优先级越高。

例如，第一预定数量可以为50、60或100，即可以根据返回的优先级，将相似度排名前50篇、60篇或100篇的文章作为相似文章并返回。本申请实施例对第一预定数量不作具体限定，用户可根据实际情况进行灵活设定。

优选地，将第一预定数量设置为50。

520：当第一指纹和第一篇文章基于第一构建方式生成的第三指纹相同部分的长度与第三指纹的长度的比值超过第一预设阈值时，生成第一索引结果。

具体地，第一篇文章基于第一构建方式生成与第一指纹相同类型的第三指纹。例如第一指纹为MD5指纹，第三指纹也为MD5指纹。

在一示例中，当第一指纹与第三指纹的指纹信息重合部分的长度与第三指纹的总长度的比值超过第一预设阈值时，生成第一索引结果。该第一索引结果包括非原创。示例性地，第一预设阈值可以为25%，本申请实施例对第一预设阈值不作具体限定。

在一示例中，当第一指纹与第三指纹的指纹信息重合部分的长度与第三指纹的总长度的比值未超过第一预设阈值时，生成第一索引结果。此时该第一索引结果包括原创。

530：当第一指纹和至少一篇文章各自基于第一构建方式生成的第四指纹相同部分的长度与多个第四指纹的总长度的比值超过第二预设阈值时，生成第二索引结果。

具体地，至少一篇文章可以是召回的与待检测文章最相似的前50篇文章。前50篇文章分别基于第一构建方式生成与第一指纹相同类型的第四指纹。

在一示例中，当第一指纹与前50篇文章对应的多个第四指纹的指纹信息重合部分的长度，与前50篇文章第四指纹的总长度的比值超过第二预设阈值时，生成第二索引结果。此时该第二索引结果包括非原创。本申请实施例对第二预设阈值的数值不作具体限定。

在一示例中，当第一指纹与前50篇文章对应的第四指纹的指纹信息重合部分的长度，与前50篇文章第四指纹的总长度的比值未超过第二预设阈值时，生成第二索引结果。此时该第二索引结果包括原创。

需要说明的是，为保证检测的速度，在对前50篇文章中重合部分的长度计算时，相同的指纹重合次数可以只计算一次，避免了召回的50篇文章中都含有相同的指纹重合部分（即前50篇文章中都包含相同的一句话），而引起的重复计算的问题。

540：当第二指纹与第一篇文章基于第二构建方式生成的第五指纹的汉明距离超过第三预设阈值时，生成第三索引结果。

具体地，由于第一指纹最多仅能表征待检测文章的一定数量（例如，30）的长句，对长篇幅文章依然会存在误判的问题，因此在第一索引结果和/或第二索引结果判定为非原创时，进一步比较待检测文章的第二指纹与第一篇文章基于第二构建方式生成的同类型且等长的第五指纹的汉明距离。

汉明距离是指两个字符串对应位置的不同字符的个数。也就是说，它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。

在一示例中，当待检测文章的第二指纹与第一篇文章基于第二构建方式生成的第五指纹的汉明距离超过第三预设阈值时，生成第三索引结果。该第三索引结果包括原创。示例性地，该第三预设阈值可以为24，本申请实施例对第三预设阈值不作具体限定。

在一示例中，当待检测文章的第二指纹与第一篇文章基于第二构建方式生成的第五指纹的汉明距离未超过第三预设阈值时，生成第三索引结果。该第三索引结果包括非原创。

550：基于第一索引结果和/或第二索引结果和/或第三索引结果，确定第一比较结果。

在一实施例中，第一比较结果包括第一篇文章。

具体地，当且仅当第一索引结果、第二索引结果和第三索引结果同时为原创时，第一比较结果才为原创，否则为非原创。例如，当第一索引结果为非原创，第二索引结果为非原创，第三索引结果为原创时，第一比较结果为非原创。

应当理解，步骤520、步骤530和步骤540是并列的步骤，在实际执行的过程中可以同时进行，也可以按照指定的顺序进行，本申请实施例对此不作具体限定。

由此可知，本申请实施例通过计算待检测文章和召回的预定数量的文章的占比及汉明距离，减少了对于篇幅较长（例如大于30个句子）的文章的误判率。

图6是本申请一示例性实施例提供的确定第二比较结果的流程示意图。该确定第二比较结果的方法，包括如下内容。

以下为便于描述将第二指纹设定为simhash指纹，具体确定第二比较结果的方法如下。

610：将第二指纹分为四组指纹。

具体地，将待检测文章基于第二构建方式生成的64位的simhash指纹（即第二指纹）分成4个16位的二进制编码。

620：将四组指纹中的每一组指纹分别与多个第二索引记录进行汉明距离比较，获得第二预定数量的第二索引记录对应的多篇文章。

具体地，将四组指纹中的每一组指纹分别在第二索引结构中进行查找，并与多个第二索引记录进行汉明距离比较，以获得每一组指纹召回的多篇第二索引记录对应的相似文章。进而将每一组指纹召回的相似文章进行优先级排序，提取排名前第二预定数量的多篇文章。本申请实施例对第二预定数量不作具体限定，可以是40、50或60。

630：当多篇文章各自基于第二构建方式生成的指纹分别与第二指纹的汉明距离未超过第四预设阈值时，获得第二比较结果。

在一实施例中，第二比较结果包括多篇文章中与第二指纹汉明距离最小的第二篇文章。

具体地，多篇文章分别基于第二构建方式生成与第二指纹相同类型，且指纹长度同为64位编码指纹。进而将生成的该64位编码指纹与第二指纹进行汉明距离比较，当汉明距离未超过第四预设阈值（例如6）时，获得第二比较结果，该第二比较结果包括非原创。本申请实施例对第四预设阈值不作具体限定，可根据实际情况灵活设置。

优选地，本申请实施例将第四预设阈值设定为6。

由此可知，本申请实施例通过在第二索引结构中，对第二指纹（simhash指纹）的判定，降低了原创文章的误判率。

在本申请一实施例中，基于第一比较结果和第二比较结果，确定检测结果包括：根据第一篇文章的发布时间与第二篇文章的发布时间，生成检测结果，其中检测结果包括非原创，以及第一篇文章和第二篇文章中发布时间较早的文章。

具体地，若两种判别方式返回的文章相同，即第一篇文章与第二篇文章相同时，检测结果在包括非原创的提示语句的同时，还可以包含该第一篇文章（或第二篇文章）。

若两种判别方式返回的文章不相同，即第一篇文章与第二篇文章不同时，检测结果在包括非原创的提示语句的同时，还可以根据发布时间包含第一篇文章和第二篇文章中发布时间较早的文章，以供用户查看。

由此可知，本申请实施例以发布时间为依据，确定最相似的文章，保证了检测结果的真实性和有效性。

在本申请一实施例中，在服务器将第一指纹和第二指纹，与多个第一索引记录和多个第二索引记录进行相似度比较，以获取待检测文章的检测结果之后，还包括：当检测结果为原创时，将待检测文章的第一指纹作为新的第一索引记录存储在第一索引结构中，以及将第二指纹作为新的第二索引记录存储在第二索引结构中。

具体地，当检测结果为原创时，证明待检测文章为原创文章（即首发文章），即第一索引结构和第二索引结构都不包含该待检测文章。

在一示例中，将待检测文章的第一指纹作为新的第一索引记录，存储在第一索引结构中的指纹库内，例如存储在首发文章MD5指纹库内；将待检测文章的第二指纹作为新的第二索引记录，存储在第二索引结构中的指纹库内，例如存储在首发文章simhash指纹库内。

应当理解，若是文章删除，也将同时删除两个索引结构中的文章。

由此可知，本申请实施例通过将原创文章录入第一索引结构和第二索引结构中，不断更新、完善两个索引结构中包含的数据库，使得检测结果的准确率更高。

在本申请一实施例中，第一指纹为文件指纹验证MD5指纹，第二指纹为simhash指纹。

图7是本申请一示例性实施例提供的文章检测装置700的结构示意图。如图7所示，该文章检测装置700包括：生成模块710、比较模块720和确定模块730。

生成模块710，用于将用户设备发送的待检测文章，以第一构建方式生成第一指纹，以第二构建方式生成第二指纹，其中，针对第一指纹设置有基于第一构建方式生成的多个第一索引记录，针对第二指纹设置有基于第二构建方式生成的多个第二索引记录；比较模块720，用于将第一指纹和第二指纹，分别与多个第一索引记录和多个第二索引记录进行相似度比较，得到第一比较结果和第二比较结果；确定模块730，用于根据所述第一比较结果和所述第二比较结果确定待检测文章的检测结果。

本申请实施例提供了一种文章检测装置，通过两种不同的构建方式生成两种不同的指纹，并将两种指纹检测的方案相结合，有效的减少了原创文章的误判率，提高了相似文本的召回率，以此达到保护文章作者的权益，支持原创的目的。

根据本申请一实施例，生成模块710，还用于基于待检测文章，获取预设长度的至少一个分句；基于至少一个分句生成至少一个分句分别对应的指纹信息及权重，其中至少一个分句中每个分句的权重为分句的长度；基于至少一个分句分别对应的指纹信息及权重，合并生成待检测文章的第一指纹；以及根据待检测文章中词汇的关联关系，提取至少一个关键词；基于所述至少一个关键词在所述待检测文章中出现的频率，确定至少一个关键词分别对应的词频数，并将词频数设置为对应的至少一个关键词的权重；基于至少一个关键词及至少一个关键词对应的权重，生成第二指纹。

根据本申请一实施例，比较模块720，还用于将第一指纹与多个第一索引记录进行相似度比较，获得第一比较结果；将第二指纹与多个第二索引记录进行汉明距离比较，获得第二比较结果其中检测结果包括原创或非原创。

根据本申请一实施例，比较模块720，还用于基于第一指纹与多个第一索引记录，获得第一预定数量的第一索引记录对应的至少一篇文章，其中至少一篇文章中与第一指纹最相似的为第一篇文章；当第一指纹和第一篇文章基于第一构建方式生成的第三指纹相同部分的长度与第三指纹的长度的比值超过第一预设阈值时，生成第一索引结果；和/或当第一指纹和至少一篇文章各自基于第一构建方式生成的第四指纹相同部分的长度与多个第四指纹的总长度的比值超过第二预设阈值时，生成第二索引结果；和/或当第二指纹与第一篇文章对应的基于第二构建方式生成的第五指纹的汉明距离超过第三预设阈值时，生成第三索引结果；基于第一索引结果和/或第二索引结果和/或第三索引结果，确定第一比较结果，其中第一比较结果包括第一篇文章。

根据本申请一实施例，比较模块720，还用于将第二指纹分为四组指纹；将四组指纹中的每一组指纹分别与多个第二索引记录进行汉明距离比较，获得第二预定数量的第二索引记录对应的多篇文章；当多篇文章各自基于第二构建方式生成的指纹分别与第二指纹的汉明距离未超过第四预设阈值时，获得第二比较结果，其中第二比较结果包括多篇文章中与第二指纹汉明距离最小的第二篇文章。

根据本申请一实施例，比较模块720，还用于根据第一篇文章的发布时间与第二篇文章的发布时间，生成检测结果，其中检测结果包括非原创，以及第一篇文章和第二篇文章中发布时间较早的文章。

根据本申请一实施例，还包括存储模块740，用于当检测结果为原创时，将待检测文章的第一指纹作为新的第一索引记录存储在第一索引结构中，以及将第二指纹作为新的第二索引记录存储在第二索引结构中。

根据本申请一实施例，第一指纹为文件指纹验证MD5指纹，第二指纹为simhash指纹。

应当理解，上述实施例中的生成模块710、比较模块720、确定模块730以及存储模块740的具体工作过程和功能可以参考上述图1至图6实施例提供的文章检测方法中的描述，为了避免重复，在此不再赘述。

图8是本申请一示例性实施例提供的用于文章检测的电子设备800的框图。

参照图8，电子设备800包括处理组件810，其进一步包括一个或多个处理器，以及由存储器820所代表的存储器资源，用于存储可由处理组件810的执行的指令，例如应用程序。存储器820中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件810被配置为执行指令，以执行上述文章检测方法。

电子设备800还可以包括一个电源组件被配置为执行电子设备800的电源管理，一个有线或无线网络接口被配置为将电子设备800连接到网络，和一个输入输出（I/O）接口。可以基于存储在存储器820的操作***操作电子设备800，例如Windows ServerTM，Mac OSXTM，UnixTM，LinuxTM，FreeBSDTM或类似。

一种非临时性计算机可读存储介质，当存储介质中的指令由上述电子设备800的处理器执行时，使得上述电子设备800能够执行一种文章检测方法，包括：服务器将用户设备发送的待检测文章，以第一构建方式生成第一指纹，以第二构建方式生成第二指纹，其中，针对第一指纹设置有基于第一构建方式生成的多个第一索引记录，针对第二指纹设置有基于第二构建方式生成的多个第二索引记录；服务器将第一指纹和第二指纹，分别与多个第一索引记录和多个第二索引记录进行相似度比较，得到第一比较结果和第二比较结果；根据所述第一比较结果和所述第二比较结果确定待检测文章的检测结果。

上述所有可选技术方案，可采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序校验码的介质。

需要说明的是，在本申请的描述中，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换等，均应包含在本申请的保护范围之内。

Claims

1.一种文章检测方法，其特征在于，包括：

服务器将用户设备发送的待检测文章，以第一构建方式生成第一指纹，以第二构建方式生成第二指纹，其中，针对所述第一指纹设置有基于所述第一构建方式生成的多个第一索引记录，针对所述第二指纹设置有基于所述第二构建方式生成的多个第二索引记录；

所述服务器将所述第一指纹和所述第二指纹，分别与所述多个第一索引记录和所述多个第二索引记录进行相似度比较，得到第一比较结果和第二比较结果；

根据所述第一比较结果和所述第二比较结果确定所述待检测文章的检测结果，

其中，所述以第一构建方式生成第一指纹包括：

基于所述待检测文章，获取预设长度的至少一个分句；基于所述至少一个分句生成所述至少一个分句分别对应的指纹信息及权重，其中所述至少一个分句中每个分句的权重为所述分句的长度；基于所述至少一个分句分别对应的所述指纹信息及所述权重，合并生成所述待检测文章的所述第一指纹，

所述基于所述待检测文章，获取预设长度的至少一个分句包括：

当所述待检测文章的长度大于或等于第一预设阈值时，截取所述待检测文章中长度排名前预定量的完整的句子作为所述至少一个分句；当所述待检测文章的长度小于所述第一预设阈值且大于或等于第二预设阈值时，截取所述待检测文章中所有的句子作为所述至少一个分句；当所述待检测文章的长度小于所述第二预设阈值时，将所述待检测文章整体作为一个分句，

所述以第二构建方式生成第二指纹包括：

根据所述待检测文章中词汇的关联关系，提取至少一个关键词；基于所述至少一个关键词在所述待检测文章中出现的频率，确定所述至少一个关键词分别对应的词频数，并将所述词频数设置为对应的所述至少一个关键词的权重；基于所述至少一个关键词及所述至少一个关键词对应的权重，生成所述第二指纹，

所述根据所述第一比较结果和所述第二比较结果确定所述待检测文章的检测结果包括：

当所述第一比较结果和所述第二比较结果同为原创时，所述待检测文章的所述检测结果为所述原创，否则所述检测结果为非原创，其中所述第一比较结果包括所述原创或所述非原创，所述第二比较结果包括所述原创或所述非原创，

所述第一指纹为文件指纹验证MD5指纹，所述第二指纹为simhash指纹。

2.根据权利要求1所述的文章检测方法，其特征在于，所述服务器将所述第一指纹和所述第二指纹，分别与所述多个第一索引记录和所述多个第二索引记录进行相似度比较，得到第一比较结果和第二比较结果包括：

将所述第一指纹与所述多个第一索引记录进行相似度比较，获得所述第一比较结果；

将所述第二指纹与所述多个第二索引记录进行汉明距离比较，获得所述第二比较结果，

其中所述检测结果包括原创或非原创。

3.根据权利要求2所述的文章检测方法，其特征在于，所述将所述第一指纹与所述多个第一索引记录进行相似度比较，获得第一比较结果包括：

基于所述第一指纹与所述多个第一索引记录，获得第一预定数量的第一索引记录对应的至少一篇文章，其中所述至少一篇文章中与所述第一指纹最相似的为第一篇文章；

当所述第一指纹和所述第一篇文章基于所述第一构建方式生成的第三指纹相同部分的长度与所述第三指纹的长度的比值超过第一预设阈值时，生成第一索引结果；和/或

当所述第一指纹和所述至少一篇文章各自基于所述第一构建方式生成的第四指纹相同部分的长度与多个所述第四指纹的总长度的比值超过第二预设阈值时，生成第二索引结果；和/或

当所述第二指纹与所述第一篇文章基于所述第二构建方式生成的第五指纹的汉明距离超过第三预设阈值时，生成第三索引结果；

基于所述第一索引结果和/或所述第二索引结果和/或所述第三索引结果，确定所述第一比较结果，其中所述第一比较结果包括所述第一篇文章。

4.根据权利要求3所述的文章检测方法，其特征在于，所述将所述第二指纹与所述多个第二索引记录进行汉明距离比较，获得所述第二比较结果包括：

将所述第二指纹分为四组指纹；

将所述四组指纹中的每一组指纹分别与所述多个第二索引记录进行汉明距离比较，获得第二预定数量的第二索引记录对应的多篇文章；

当所述多篇文章各自基于所述第二构建方式生成的指纹分别与所述第二指纹的汉明距离未超过第四预设阈值时，获得所述第二比较结果，其中所述第二比较结果包括所述多篇文章中与所述第二指纹汉明距离最小的第二篇文章。

5.根据权利要求4所述的文章检测方法，其特征在于，所述根据所述第一比较结果和所述第二比较结果确定所述待检测文章的检测结果包括：

根据所述第一篇文章的发布时间与所述第二篇文章的发布时间，生成所述检测结果，其中所述检测结果包括所述非原创，以及所述第一篇文章和所述第二篇文章中发布时间较早的文章。

6.根据权利要求1所述的文章检测方法，其特征在于，在根据所述第一比较结果和所述第二比较结果确定所述待检测文章的检测结果之后，还包括：

当所述检测结果为原创时，将所述待检测文章的所述第一指纹作为新的第一索引记录存储在第一索引结构中，以及将所述第二指纹作为新的第二索引记录存储在第二索引结构中。

7.一种文章检测装置，其特征在于，包括：

生成模块，用于将用户设备发送的待检测文章，以第一构建方式生成第一指纹，以第二构建方式生成第二指纹，其中，针对所述第一指纹设置有基于所述第一构建方式生成的多个第一索引记录，针对所述第二指纹设置有基于所述第二构建方式生成的多个第二索引记录；

比较模块，用于将所述第一指纹和所述第二指纹，分别与所述多个第一索引记录和所述多个第二索引记录进行相似度比较，得到第一比较结果和第二比较结果；

确定模块，用于根据所述第一比较结果和所述第二比较结果确定所述待检测文章的检测结果，

其中所述生成模块，用于基于所述待检测文章，获取预设长度的至少一个分句；基于所述至少一个分句生成所述至少一个分句分别对应的指纹信息及权重，其中所述至少一个分句中每个分句的权重为所述分句的长度；基于所述至少一个分句分别对应的所述指纹信息及所述权重，合并生成所述待检测文章的所述第一指纹，

所述生成模块，还用于当所述待检测文章的长度大于或等于第一预设阈值时，截取所述待检测文章中长度排名前预定量的完整的句子作为所述至少一个分句；当所述待检测文章的长度小于所述第一预设阈值且大于或等于第二预设阈值时，截取所述待检测文章中所有的句子作为所述至少一个分句；当所述待检测文章的长度小于所述第二预设阈值时，将所述待检测文章整体作为一个分句，

所述生成模块，还用于根据所述待检测文章中词汇的关联关系，提取至少一个关键词；基于所述至少一个关键词在所述待检测文章中出现的频率，确定所述至少一个关键词分别对应的词频数，并将所述词频数设置为对应的所述至少一个关键词的权重；基于所述至少一个关键词及所述至少一个关键词对应的权重，生成所述第二指纹，

所述确定模块，用于当所述第一比较结果和所述第二比较结果同为原创时，所述待检测文章的所述检测结果为所述原创，否则所述检测结果为非原创，其中所述第一比较结果包括所述原创或所述非原创，所述第二比较结果包括所述原创或所述非原创，

8.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器，

其中，所述处理器用于执行上述权利要求1至6中任一项所述的文章检测方法。