CN110019660A

CN110019660A - 一种相似文本检测方法及装置

Info

Publication number: CN110019660A
Application number: CN201710663792.4A
Authority: CN
Inventors: 贺达; 徐文斌
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-08-06
Filing date: 2017-08-06
Publication date: 2019-07-16

Abstract

本发明公开了一种相似文本检测方法及装置，涉及文本处理技术领域，为解决现有的相似文本检测需要花费的时间较多，从而导致相似文本检测的效率较低而发明。本发明的方法包括：利用从目标文本中提取的第一关键词数组对待检测文本集合进行筛选，得到筛选文本集合；对所述筛选文本集合中的每个筛选文本提取对应的第二关键词数组；当所述第一关键词数组与所述第二关键词数组中含有相同关键词的数量达到阈值时，确定所述筛选文本为所述目标文本的相似文本。本发明适合应用在相似文本的检测。

Description

一种相似文本检测方法及装置

技术领域

本发明涉及文本处理技术领域，尤其涉及一种相似文本检测方法及装置。

背景技术

随着网络的蓬勃发展，互联网已成为各大厂商投放广告的重要领域。为了更好的推广产品信息，厂商们开始投放“软文”广告以逐步取代以往的广告形式。其中，“软文”广告可以将厂商们想要推荐的产品与相关文章有机的结合在一起，能够使阅读者在认同文章中理念的同时更好接受文章中推荐的产品。为了验证“软文”广告的推广效果，厂商通常会使用现有技术中的TF-IDF、LDA等算法或模型，通过计算出“软文”广告的原始文本与网络中待判断文本的特征，并对该计算出的特征进行一一对比来确定文本是否相似，进而判断推广效果。

目前，在对相似文本的检测时，需要计算每一个待判断文本与原始文本的相似度。然而，当网络中待判断文本的数量较大时，要对每一篇待判断文本都进行相似度计算无疑将消耗检测设备的大量计算资源，而在检测设备的计算资源一定的情况下，要完成相似文本的检测将需要花费更多的时间，从而导致相似文本检测的效率低下。

发明内容

鉴于上述问题，本发明提供一种相似文本检测方法及装置，主要目的在于减少相似文本检测过程中所需花费的时间，进而提高相似文本检测的效率。

为解决上述技术问题，第一方面，本发明提供了一种相似文本检测方法，该方法包括：

利用从目标文本中提取的第一关键词数组对待检测文本集合进行筛选，得到筛选文本集合；

对所述筛选文本集合中的每个筛选文本提取对应的第二关键词数组；

当所述第一关键词数组与所述第二关键词数组中含有相同关键词的数量达到阈值时，确定所述筛选文本为所述目标文本的相似文本。

优选的，在确定所述筛选文本为所述目标文本的相似文本之前，所述方法还包括：

匹配所述第一关键词数组与所述第二关键词数组中含有的相同关键词；

当存在多个相同关键词时，判断所述相同关键词在所述第一关键词数组中的排布顺序是否与在所述第二关键词数组中的排布顺序相同；

提取具有相同排布顺序的关键词，计算所述关键词的数量是否达到所述阈值。

优选的，判断所述相同关键词在所述第一关键词数组中的排布顺序是否与在所述第二关键词数组中的排布顺序相同包括：

判断所述相同关键词在所述第一关键词数组和所述第二关键词数组中的元素位置是否相同；或者

按照数组中关键词的排序判断在所述第一关键词数组和所述第二关键词数组中与所述相同关键词相邻的另一相同关键词是否相同。

优选的，所述利用从目标文本中提取的第一关键词数组对待检测文本集合进行筛选，得到筛选文本集合包括：

通过预置的关键词提取模型从所述目标文本中提取多个关键词，得到所述第一关键词数组；

判断所述待检测文本中是否包含所述多个关键词；

若是，则确定所述待检测文本为筛选文本，将所述筛选文本添加至所述筛选文本集合中。

优选的，对所述筛选文本集合中的每个筛选文本提取对应的第二关键词数组包括：

利用所述关键词提取模型提取所述筛选文本中的多个关键词，得到所述第二关键词数组；

在所述筛选文本集合中记录所述筛选文本与所述第二关键词数组的关联关系。

优选的，在所述通过从目标文本中提取的关键词对待检测文本集合进行筛选，得到筛选文本集合之前，所述方法还包括：

解析所述目标文本的内容，并根据所述内容确定所述目标文本的文本类别；

获取所述文本类别的对应文本，得到所述待检测文本集合。

第二方面，本发明还提供了一种相似文本检测装置，该装置包括：

筛选单元，用于利用从目标文本中提取的第一关键词数组对待检测文本集合进行筛选，得到筛选文本集合；

提取单元，用于对所述筛选单元得到的筛选文本集合中的每个筛选文本提取对应的第二关键词数组；

确定单元，用于当所述第一关键词数组与所述第二关键词数组中含有相同关键词的数量达到阈值时，确定所述筛选文本为所述目标文本的相似文本。

优选的，所述装置还包括：

匹配单元，用于在确定单元确定所述筛选文本为所述目标文本的相似文本之前，匹配所述第一关键词数组与所述第二关键词数组中含有的相同关键词；

判断单元，用于当所述匹配单元匹配出多个相同关键词时，判断所述相同关键词在所述第一关键词数组中的排布顺序是否与在所述第二关键词数组中的排布顺序相同；

计算单元，用于提取所述判断单元判断具有相同排布顺序的关键词，计算所述关键词的数量是否达到所述阈值。

优选的，所述判断单元包括：

第一判断模块，用于判断所述相同关键词在所述第一关键词数组和所述第二关键词数组中的元素位置是否相同；

第二判断模块，用于按照数组中关键词的排序判断在所述第一关键词数组和所述第二关键词数组中与所述相同关键词相邻的另一相同关键词是否相同。

优选的，所述筛选单元包括：

提取模块，用于通过预置的关键词提取模型从所述目标文本中提取多个关键词，得到所述第一关键词数组；

判断模块，用于判断所述待检测文本中是否包含所述提取模块提取的多个关键词；

确定添加模块，用于当所述判断模块确定包含多个关键词时，确定所述待检测文本为筛选文本，并将所述筛选文本添加至所述筛选文本集合中。

优选的，所述提取单元包括：

提取模块，用于利用所述关键词提取模型提取所述筛选文本中的多个关键词，得到所述第二关键词数组；

记录模块，用于在所述提取模块得到筛选文本集合中记录所述筛选文本与所述第二关键词数组的关联关系。

优选的，所述装置还包括：

解析单元，用于在所述筛选单元通过从目标文本中提取的关键词对待检测文本集合进行筛选，得到筛选文本集合之前，解析所述目标文本的内容，并根据所述内容确定所述目标文本的文本类别；

获取单元，用于获取所述解析单元解析的文本类别的对应文本，得到所述待检测文本集合。

为了实现上述目的，根据本发明的第三方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述所述的相似文本检测方法。

为了实现上述目的，根据本发明的第四方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述所述的相似文本检测方法。

借由上述技术方案，本发明提供的相似文本检测方法及装置，对于现有技术在检测相似文本时，需要计算每一个待判断文本与原始文本的相似度，本发明通过利用从目标文本中提取的关键词对待检测文本进行筛选操作，可以将待检测文本中不符合筛选条件的文本剔除出去，有效的减少了需要检测的文本数量，从而减少了计算文本相似度过程中的计算量，以减少检测所需的时间。而对于筛选出的文本，本发明通过对目标文本提取关键词相同的方式再次提取关键词，并对比两组中的关键词所具有的相同关键词的数量，以此来判断筛选出的文本是否为目标文本的相似文本，可见在该方式中无需复杂的相似计算，在保证检测结果准确的同时仅通过关键词的对比即可，提高了相似文本的检测效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种相似文本检测方法流程图；

图2示出了本发明实施例提供的另一种相似文本检测方法流程图；

图3示出了本发明实施例提供的一种相似文本检测装置的组成框图；

图4示出了本发明实施例提供的另一种相似文本检测装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

为了提高用户需求分析结果的准确性，从网络文本中快速的查找匹配出与目标文本近似或相同的文本信息，本发明实施例提供了一种相似文本检测方法，如图1所示，该方法包括：

101、利用从目标文本中提取的第一关键词数组对待检测文本集合进行筛选，得到筛选文本集合。

一般来说，在进行相似文本的检测时，需要有一个进行对比的原始文本，即将该文本作为待检测文本在进行检测时的参照物。根据本发明实施例所述的方法，所述原始文本即为所述的目标文本，因此在对待检测文本进行相似文本检测时，要将待检测文本与目标文本进行比较。而目标文本一般是由用户所指定或提供的文本信息。

由此，根据本步骤所述的方法，首先需要获得目标文本，并提取该目标文本中的关键词，其中所述关键词可以理解为在目标文本中较为重要的一个或多个词语。具体选择关键词的规则和数量在此不做具体的限定，可以根据需要进行选取，例如，可以选择在目标文本中出现频率最高的词语作为本步骤所述的关键词；或者，可以选择出现频率排在前三位的词语作为本步骤所述的关键词组。然后，将所提取的关键词以数组的形式的存储，得到所述的第一关键词数组，利用该数组中的关键词对待检测文本集合进行筛选操作，即判断待检测文本中是否含有与第一关键词数组中的关键词相同的词汇，并将筛选后的文本所形成的集合确定为筛选文本集合。

需要说明的是，在本步骤所述的方法中，具体筛选操作的实现过程与所述关键词的数量、以及实际需求有关，例如，当关键词的数量较少时，并且待检测文本集合中文本数量特别多时，可以选择将只包含部分关键词的文本与不包含关键词的文本剔除，而将待检测文本集合中包含全部所述关键词的文本保留，作为筛选后的生成的筛选文本集合；或者，当关键词的数量较多时且待检测文本集合中文本数量较少时，可以选择只将完全不包含所述关键词的文本剔除，而将包含第一关键词数组中的部分关键词的文本保留，作为筛选后生成的筛选文本集合。在本步骤中，筛选的具体操作规则以及关键词的数量、种类在此均不做限定，可以根据实际情况，作相应的调整，即上述的条件设置均可以做为用户预先设置的具体参数由用户根据自身的需求进行自定义设置。

例如，当待检测文本集合中文本的数量为10000000个时，目标文本的关键词数量为3个，根据本步骤所述的方法，可以在筛选过程中将全部包含上述3个关键词的文本作为筛选文本保留作为筛选文本集合，这样可以有效减少后续计算过程的计算量；而当待检测文本集合中文本的数量为400个时，目标文本的关键词数量为15个，则根据本步骤所述的方法，可以在筛选过程中包含上述15个关键词中的10个以上的文本确定为筛选文本并将该文本存储至对应的筛选文本集合中。

102、对筛选文本集合中的每个筛选文本提取对应的第二关键词数组。

在得到筛选文本集合后，通过本步骤，从筛选文本集合中逐一地提取筛选文本，并对该筛选文本提取多个关键词，同样以数组的形式进行存储，得到第二关键词数组。

需要说明的是，在本发明实施例中，对筛选文本所采用的提取关键词的方式需要与对目标文本所采用的提取关键词的方式一致，也就是说，在进行文本的关键词提取时，要采用相同的提取规则以及相同的提取参数，以此来保证从目标文本中提取的关键词与筛选文本中提取的关键词具有可比性。

103、当第一关键词数组与第二关键词数组中含有相同关键词的数量达到阈值时，确定筛选文本为目标文本的相似文本。

其中，对于第一关键词数组与第二关键词数组中所含有的关键词数量没有限定，可以具有相同数量的关键词，也可以不同。因为，本步骤所对比的是在两个数组中的元素是否相同，而非元素的具体数量。一般的，不论第一关键词数组或者是第二关键词数组，数组中是不会出现相同的关键词的，所以，在比对时，只需要以一个数组为匹配对象，从另一个数组中逐一的提取关键词进行匹配即可。

此外，当第一关键词数组与第二关键词数组中都含有多个关键词时，判断筛选文本与目标文本是否相似则可以通过判断两者中是否具有相同的关键词，而在具有多个关键词时，则可以通过判断相同关键词的数量的是否达到预置的一个阈值，也就是在两者具有一定数量的相同关键词时，才能够认定筛选文本为目标文本的相似文本。这也是因为，目标文本的相似文本在网络传播的过程中往往会对正文中的内容进行调整，导致关键词的变化，因此，阈值设置的高低也可以从一方面反映出相似文本与目标文本的近似程度，阈值越高，说明条件越严苛，得到的相似文本也就与目标文本的近似度越高。

由于本步骤中是比较两个关键词数组中的关键词，针对于数组的匹配，具体的匹配方式，可以是一一对应的方式，也可以是集合对比的方式，其中，一一对应的方式是要求数组中的元素在数组中的位置与顺序都要相同，而集合对比的方式则是仅对元素自身进行比较，而对于元素所在的位置以及顺序不做比较。例如，目标文本中的第一关键词数组，为[A,B,C]，那么，对于一一对应的方式，相似文本中提取的第二关键词数组，可以是[A,B,C]，或者是[A,B,C,D]；而对于集合对比的方式，其相似文本中所提取的第二关键词数组，只需要具有A,B,C即可，无需考虑元素的位置与顺序，可以是[B,A,C]，或者[D,B,C,A]等。

一般来说，由于目标文本的相似文本可能会是该文本经过段落顺序或某些句子颠倒后生成的文本，因此在相似文本的检测中，关键词在关键词数组中的顺序很可能是不同的，因此在进行关键词匹配的过程中，可选择集合对比的方式。但是具体的对比方式，仍然可以根据实际需要选取，而本步骤所述的对比方式仅仅是示例性，并不做具体的限定。

结合上述本发明实施例提供的一种相似文本检测方法，其相对现有技术在检测相似文本时，需要计算每一个待判断文本与原始文本的相似度，本发明实施例是通过利用从目标文本中提取的关键词对待检测文本进行筛选操作，可以将待检测文本中不符合筛选条件的文本剔除出去，有效的减少了需要检测的文本数量，从而减少了计算文本相似度过程中的计算量，以减少检测所需的时间。而对于筛选出的文本，本发明实施例还通过对目标文本提取关键词相同的方式再次提取关键词，并对比两组中的关键词所具有的相同关键词的数量，以此来判断筛选出的文本是否为目标文本的相似文本，可见，在该方式中无需复杂的相似计算，在保证检测结果准确的同时仅通过关键词的对比即可，明显提高了相似文本的检测效率。

进一步的，作为对图1所示实施例的细化及扩展，特别是针对从筛选文本中提取的关键词与目标文本中的关键词进行匹配的实现方式，对此，本发明实施例还提供了另一种相似文本检测方法，如图2所示，具体步骤包括：

201、解析目标文本的内容，并根据该内容确定目标文本的文本类别。

在本发明实施例中，所述的目标文本与实施例101中所述的目标文本相同，在此不做赘述。

根据本步骤的方法，在获得目标文本后，需要对目标文本的内容进行解析操作以获得所述目标文本的类别。具体的，可以理解为通过对目标文本内容的分析来确定所述目标文本的具体种类，例如新闻、广告等。或者是更为具体的类别，例如，护肤品广告、保健品广告等。具体的文本的种类根据实际操作中的目标文本来确定。其中，本步骤所述的解析操作的过程不限定是通过人工方式来进行，或者是通过含有自然语料分析处理功能的相关软件来实现。具体情况，可以根据目标文本的文字数量或根据实际需要来选择，在此不做限定。

根据本步骤所述的方法，通过对目标文本的内容进行解析，并根据文本内容确定目标文本的类别，实现了以目标文本的主要内容来确定文本类别的功能，为后续获取所述文本类别对应的文本提供了筛选范围，进而可以减少获取文本的数量，也减少了相似文本检测的文本数量，从而提高了整体的检测效率。

202、获取文本类别的对应文本，得到待检测文本集合。

根据步骤201确定的文本类别，可以在网络上获取该类别的文本，以生成待检测文本的集合。其中，获取所述类别的文本的方式可以选择网络爬虫，当然，也可以选择其他的方式获取，如搜索引擎，在此不做限定，可自行选取。此外，在本步骤中，当获取对应所述文本类别的文本时，同时可以通过网络爬虫获取该文本的统一资源定位符(UniformResource Locator，简称URL)，以实现对文本位置以及来源的追踪。其中，URL是一种用于表征互联网上资源的位置及访问方法的字符串，可以理解为互联网上标准资源的地址信息。互联网上的每个文件都有一个唯一的URL。

根据本步骤的方法，通过获取对应所述文本类别的文本得到的待检测文本可以在确定网络中是否存在与目标文本相似的文本时，更加具有针对性的控制待检测文本的范围以及获取的数量，进而从源头上避免了无意义的文本获取操作，达到减少相似文本检测过程中整体的时间消耗的目的，进一步提高了检测效率。

203、利用从目标文本中提取的第一关键词数组对待检测文本集合进行筛选，得到筛选文本集合。

具体的，本步骤包括：首先，通过预置的关键词提取模型从目标文本中提取多个关键词，得到第一关键词数组；然后，判断待检测文本集合中的文本中是否包含第一关键词数组中的关键词；最后，若确定待检测文本集合中的文本包含该关键词，则确定该待检测文本为筛选文本，并将该待检测文本添加至由已经确定为筛选文本的文本组成的筛选文本集合中。

本步骤中预置的关键词提取模型用于提取文本中的关键词，不同模型的区别在于其所使用的提取算法，常用的算法如TF-IDF算法(term frequency–inverse documentfrequency，简称TF-IDF)，基于词语位置加权的TextRank算法，LDA(Latent DirichletAllocation)模型等。对于采用何种算法的提取模型本发明实施例不做具体限定，而对于提取的关键词的数量是可以根据需求来设置的，以采用TF-IDF算法提取多个关键词为例，当选择TF-IDF模型作为关键词的提取工具时，可以设置出现频率较高的前几个词语作为该目标文本的关键词。具体的，该算法可以看做是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。其中，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

将利用关键词提取模型提取的多个关键词组成第一关键词数组，并基于该第一关键词数组在待检测文本集合中逐一筛选所有的文本。而在本步骤中，是判断待检测文本集合中的文本是否包含了第一关键词数组内全部的关键词，只有包含所有的关键词，该文本才能够被确定为筛选文本，并将该文本添加到对应的筛选文本集合中，其中，对应的筛选文本集合是指针对本次检测的目标文本而设置的筛选文本集合。

由此，根据本步骤所述的方法，通过从目标文本中提取的第一关键词数组对待检测文本进行筛选操作，能够实现过滤待检测文本中不包含第一关键词数组内的关键词的文本，从而减少了后续需计算相似文本的文本数量以及对应的计算量。

204、对筛选文本集合中的每个筛选文本提取对应的第二关键词数组。

本步骤的内容与上述实施例中的步骤102相同，具体说明不再赘述。并且，本步骤中所采用的关键词提取方式与上述步骤203中说明的对目标文本提取关键词的方式相同，即使用同样的关键词提取模型，如此，一般情况下，所得到的关键词数量与目标文本是相同的，当然对于具体数量，在本步骤中也是允许进行单独设置的。

通过对筛选文本的提取，将得到由多个关键词所组成的第二关键词数组。需要说明的是，由于筛选文本集合中一般会记录有多个筛选文本，因此，对该筛选文本集合中的每一个筛选文本进行关键词提取后，就会得到的多组的第二关键词数组，为了避免在后续计算中出现对应关系不清楚的情况，本步骤在每提取完一个第二关键词数组的同时，将该第二关键词数组与所提取的筛选文本进行标记，以记录两者的关联关系。

本步骤是对筛选文本集合中的文本进行二次过滤的基础，通过提取筛选文本中的关键词，进行步骤205所执行的匹配操作，最终确定该筛选文本集合中的哪些文本为目标文本的相似文本。

205、判断第一关键词数组与第二关键词数组中含有相同关键词的数量是否达到阈值。

执行本步骤前，首先要设置一个阈值，该阈值可以是在进行检测操作前由用户自定义设置的，也可以是***默认的数值。本发明实施例中，该阈值为预设的一个百分比数据值，其取值区间介于0％～100％，相对应的，阈值为0％时，筛选文本与目标文本将不存在相同的关键词，而阈值为100％时，则说明目标文本的关键词全部含在在筛选文本的关键词中。

基于所设置的阈值，本步骤的具体执行过程为：

首先，匹配第一关键词数组与第二关键词数组中含有的相同关键词。

将从第一关键词数组逐一地提取关键词，并判断所提取的关键词是否存在于第二关键词数组中，若存在，则标记该关键词。直至将第一关键词数组中的所有关键词在第二关键词数组中进行过匹配之后，计算标记过的关键词数量，得到两个数组中具有的相同关键词。一般地，该数量的值可以分为三类，一种为0，没有相同关键词，此时，可以确定两篇文本不是相似文本；一种为1，仅有一个相同的关键词，此时，如果第一关键词数组中也只有一个关键词，那么这两篇文本可能为相似文本，而如果第一关键词数组中有多个关键词，那么这两篇文本属于相似文本的可能性也很低；还有一种为大于1时，即有多个相同的关键词，此时两篇文本是否为相似文本则需要根据后续的判断步骤进行进一步地确定。

其次，判断相同关键词在第一关键词数组中的排布顺序是否与在第二关键词数组中的排布顺序相同。

其中，本步骤中的排布顺序是指关键词在数组中的位置顺序，或者是相同关键词的排列顺序。具体的，本步骤判断的具体方式可以是判断相同关键词在第一关键词数组和第二关键词数组中的元素位置是否相同，或者是按照数组中关键词的排序判断在第一关键词数组和第二关键词数组中与相同关键词相邻的另一相同关键词是否相同，该方式也可以理解为将相同的关键词按照各自在第一关键词数组和第二关键词数组中的位置进行排序，再判断这些相同关键词在第一关键词数组和第二关键词数组中的排序是否相同。

例如，第一关键词数组为具有5个关键词组成的数组，为[A,B,C,D,E]，当第二关键词数组[A,F,C,H,D,E]时，根据前一种判断方式，两个数组被认定为所具有相同关键词的数量为2个，即A和C，而根据后一种的判断方式，两个数组被认定为所具有相同关键词的数量为4个，即A，C，D和E。

通过选择不同的判断方式，可以有效的控制相同关键词的数量，以此来提高相似计算的准确率。具体判断方式的选择可根据实际应用中的具体情况自由确定，本步骤则不做具体限定。

最后，提取具有相同排布顺序的关键词，计算关键词的数量是否达到阈值。

其中，由于本步骤中的阈值为百分比数值，因此，在得到相同关键词的数量后，还需要计算相同关键词在数组中的占比，在本发明实施例中，确定占比所用的数组为第二关键词数组，即判断相同关键词在筛选文本的关键词中所占的百分比，用该比值与预设的阈值进行比较，当达到该阈值时，则执行步骤206。

206、在相同关键词的数量达到阈值时，确定筛选文本为目标文本的相似文本。

由此可见，阈值的大小直接关系到筛选文本与目标文本的相似程度，也就是关系相似文本检测的准确性，同时，该阈值的大小还直接关系到最终相似文本的数量。因此，该阈值的设置一般需要针对不同的应用场景进行多次的测试验证来得到，也就是说，该阈值的设置在大多数的情况下是根据经验值所设置的。

进一步的，作为对上述图1所示方法的实现，本发明实施例还提供了一种相似文本检测装置，用于对上述图1所示的方法进行实现。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图3所示，该装置包括：筛选单元31、提取单元32、确定单元33，其中

筛选单元31，用于利用从目标文本中提取的第一关键词数组对待检测文本集合进行筛选，得到筛选文本集合；

提取单元32，用于对所述筛选单元31得到的筛选文本集合中的每个筛选文本提取对应的第二关键词数组；

确定单元33，用于当所述第一关键词数组与所述提取单元32提取的第二关键词数组中含有相同关键词的数量达到阈值时，确定所述筛选单元31选出的筛选文本为所述目标文本的相似文本。

进一步的，作为对上述图2所示方法的实现，本发明实施例还提供了另一种相似文本检测装置，用于对上述图2所示的方法进行实现。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图4所示，该装置包括：筛选单元41、提取单元42、确定单元43，其中

筛选单元41，用于利用从目标文本中提取的第一关键词数组对待检测文本集合进行筛选，得到筛选文本集合；

提取单元42，用于对所述筛选单元41得到的筛选文本集合中的每个筛选文本提取对应的第二关键词数组；

确定单元43，用于当所述第一关键词数组与所述提取单元42提取的第二关键词数组中含有相同关键词的数量达到阈值时，确定所述筛选单元41选出的筛选文本为所述目标文本的相似文本。

进一步的，所述装置还包括：

匹配单元44，用于在确定单元43确定所述筛选文本为所述目标文本的相似文本之前，匹配所述第一关键词数组与所述提取单元42提取的第二关键词数组中含有的相同关键词；

判断单元45，用于当所述匹配单元44匹配出多个相同关键词时，判断所述相同关键词在所述第一关键词数组中的排布顺序是否与在所述第二关键词数组中的排布顺序相同；

计算单元46，用于提取所述判断单元45判断具有相同排布顺序的关键词，计算所述关键词的数量是否达到所述阈值。

进一步的，所述判断单元45包括：

第一判断模块451，用于判断所述相同关键词在第一关键词数组和第二关键词数组中的元素位置是否相同；

第二判断模块452，用于按照数组中关键词的排序判断在第一关键词数组和第二关键词数组中与所述相同关键词相邻的另一相同关键词是否相同。

进一步的，所述筛选单元41包括：

提取模块411，用于通过预置的关键词提取模型从所述目标文本中提取多个关键词，得到所述第一关键词数组；

判断模块412，用于判断所述待检测文本中是否包含所述提取模块411提取的多个关键词；

确定添加模块413，用于当所述判断模块412确定包含多个关键词时，确定所述待检测文本为筛选文本，并将所述筛选文本添加至所述筛选文本集合中。

进一步的，所述提取单元42包括：

提取模块421，用于利用所述关键词提取模型提取所述筛选文本中的多个关键词，得到所述第二关键词数组；

记录模块422，用于在所述提取模块421得到筛选文本集合中记录所述筛选文本与所述第二关键词数组的关联关系。

进一步的，所述装置还包括：

解析单元47，用于在所述筛选单元41通过从目标文本中提取的关键词对待检测文本集合进行筛选，得到筛选文本集合之前，解析所述目标文本的内容，并根据所述内容确定所述目标文本的文本类别；

获取单元48，用于获取所述解析单元47解析的文本类别的对应文本，得到所述待检测文本集合。

借由上述技术方案，本发明实施例提供的一种相似文本检测方法及装置，相对于现有技术在对相似文本进行检测时，需要计算每一个待判断文本的相似度，本发明实施例通过利用关键词提取模型从目标文本中提取的关键词对待检测文本进行筛选操作，可以将待检测文本中不符合筛选条件的文本剔除出去，有效的减少了需要检测的文本数量，从而减少了计算文本相似度过程中的计算量，以减少检测所需的时间。而对于筛选出的文本，本发明实施例还通过使用与对目标文本提取关键词相同的方式提取关键词，并对比两组中的关键词所具有的相同关键词的数量，以此来判断筛选出的文本是否为目标文本的相似文本，而通过采用不同的判断规则还可有效的控制相同关键词的数量，也可以达到控制相似文本数量的目的，实现从多个维度来调节计算精度的目的，而在所采用的上述方式中都无需复杂的相似计算，并且能够在保证检测结果准确的同时仅通过关键词的对比就确定出相似文本，明显提高了相似文本检测的检出效率。

所述文本处理装置包括处理器和存储器，上述筛选单元、提取单元、确定单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现减少相似文本检测过程中所需花费的时间，进而提高相似文本检测的效率。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述相似文本检测方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述相似文本检测方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：利用从目标文本中提取的第一关键词数组对待检测文本集合进行筛选，得到筛选文本集合；对所述筛选文本集合中的每个筛选文本提取对应的第二关键词数组；当所述第一关键词数组与所述第二关键词数组中含有相同关键词的数量达到阈值时，确定所述筛选文本为所述目标文本的相似文本。

进一步的，在确定所述筛选文本为所述目标文本的相似文本之前，所述方法还包括：

进一步的，判断所述相同关键词在所述第一关键词数组中的排布顺序是否与在所述第二关键词数组中的排布顺序相同包括：

判断所述相同关键词在第一关键词数组和第二关键词数组中的元素位置是否相同；或者

按照数组中关键词的排序判断在第一关键词数组和第二关键词数组中与所述相同关键词相邻的另一相同关键词是否相同。

进一步的，所述利用从目标文本中提取的第一关键词数组对待检测文本集合进行筛选，得到筛选文本集合包括：

判断所述待检测文本中是否包含所述多个关键词；

进一步的，对所述筛选文本集合中的每个筛选文本提取对应的第二关键词数组包括：

进一步的，在所述通过从目标文本中提取的关键词对待检测文本集合进行筛选，得到筛选文本集合之前，所述方法还包括：

获取所述文本类别的对应文本，得到所述待检测文本集合。

本发明实施例中的设备可以是服务器、PC、PAD、手机等。

本发明实施例还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：利用从目标文本中提取的第一关键词数组对待检测文本集合进行筛选，得到筛选文本集合；对所述筛选文本集合中的每个筛选文本提取对应的第二关键词数组；当所述第一关键词数组与所述第二关键词数组中含有相同关键词的数量达到阈值时，确定所述筛选文本为所述目标文本的相似文本。

判断所述待检测文本中是否包含所述多个关键词；

获取所述文本类别的对应文本，得到所述待检测文本集合。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种相似文本检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在确定所述筛选文本为所述目标文本的相似文本之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，判断所述相同关键词在所述第一关键词数组中的排布顺序是否与在所述第二关键词数组中的排布顺序相同包括：

4.根据权利要求1所述的方法，其特征在于，所述利用从目标文本中提取的第一关键词数组对待检测文本集合进行筛选，得到筛选文本集合包括：

判断所述待检测文本中是否包含所述多个关键词；

5.根据权利要求4所述的方法，其特征在于，对所述筛选文本集合中的每个筛选文本提取对应的第二关键词数组包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，在所述通过从目标文本中提取的关键词对待检测文本集合进行筛选，得到筛选文本集合之前，所述方法还包括：

获取所述文本类别的对应文本，得到所述待检测文本集合。

7.一种相似文本检测装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求6中任意一项所述的相似文本检测方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至权利要求6中任意一项所述的相似文本检测方法。