CN109857856B

CN109857856B - 一种文本的检索排序确定方法及***

Info

Publication number: CN109857856B
Application number: CN201910082601.4A
Authority: CN
Inventors: 郭永红
Original assignee: Beijing Hexiang Wisdom Technology Co ltd
Current assignee: Beijing Hexiang Wisdom Technology Co ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2020-05-22
Anticipated expiration: 2039-01-28
Also published as: CN109857856A

Abstract

本发明公开了一种文本的检索排序确定方法及***，该方法包括如下步骤：获取待检索的目标文本和候选文本集合；获取所述目标文本与所述候选文本集合中每个文本的关联度量值；利用所述关联度量值根据第一预设规则对所述候选文本集合中的每个文本进行排序，根据第一预设筛选条件构建第一文本集合；将所述第一文本集合中每个文本根据第二预设规则进行排序，获取目标文本的检索排序结果。本发明提供的实施例，集合多种算法的优势，提高专利检索结果的精准度，提升用户的检索效率。

Description

一种文本的检索排序确定方法及***

技术领域

本发明涉及数据处理领域，具体涉及一种文本的检索排序确定方法及***。

背景技术

现有技术中对文献(例如期刊论文、专利等)进行检索时，利用现有的多个不同种类的相似度计算方法(如结构分析、语义分析、关键词分析等)，对候选的文献进行排序后可得出不同的排序结果；此外，对于同一类相似度计算方法，可能也会有不同结果，例如，以语义分析为例，对于同一对专利原文之间的相似度计算结果与其译文之间的相似度计算结果亦有差别。由此，对于同一个目标专利而言，针对不同的解决方案，其候选专利的相似度的排列方式也是多种多样的，每种方式各有其排序规则，得到的排序结果可能差别较大，比如用户真正需要的最相关的专利在其中的一种解决方案中可能排在前10位，在另一种解决方案中可能会排在 1000位以后，这种情况下，用户无法得知最佳的检索结果，并且，如果用户逐一浏览使用各种排列方式的话，也会极大影响检索效率。

发明内容

因此，本发明提供一种文献的检索选取和排序的确定方法及***，克服了现有技术中对文献检索的排列方式的不同导致的无法得出最佳检索结果的不足。

第一方面，本发明实施例提供一种文本的检索排序确定方法，包括如下步骤：获取待检索的目标文本和候选文本集合；获取所述目标文本与所述候选文本集合中每个文本的关联度量值；利用所述关联度量值根据第一预设规则对所述候选文本集合中的每个文本进行排序，根据第一预设筛选条件构建第一文本集合；将所述第一文本集合中每个文本根据第二预设规则进行排序，获取目标文本的检索排序结果。

在一实施例中，所述将所述第一文本集合中每个文本根据第二预设规则进行排序，获取目标文本的检索排序结果的步骤，包括：将所述第一文本集合中每个文本根据第三预设规则进行排序，根据第二预设筛选条件排除噪声文本，构建第二文本集合；将所述第二文本集合中的每个文本根据第二预设规则进行排序，获取目标文本的检索排序结果。

在一实施例中，获取所述目标文本与所述候选文本集合中每个文本的关联度量值的步骤，包括:利用预设N种关联度量算法分别计算所述目标文本与所述候选文本集合中每个文本的关联度量值，所述N为大于或者等于2 的正整数。

在一实施例中，所述利用所述关联度量值根据第一预设规则对所述候选文本集合中的每个文本进行排序，根据第一预设筛选条件构建第一文本集合的步骤，包括：根据预设N种关联度量算法获取的关联度量值，分别对所述候选文本集合中的每个文本进行排序，得到N种排序集合；对所述N 种排序集合根据第一预设规则进行综合排序，根据第一预设筛选条件构建第一文本集合；优选地，根据第一预设筛选条件构建第一文本集合的步骤包括：根据预设策略对预设N种关联度量算法分别计算所述目标文本与所述候选文本集合中每个文本的关联度量值进行分析，获取分析结果；根据分析结果判断所述候选文本集合中每个文本是否满足预设条件，将候选文本集合中满足所述预设条件的文本选入所述第一文本集合中。

在一实施例中，所述对所述N种排序集合根据第一预设规则进行综合排序，根据第一预设筛选条件构建第一文本集合的步骤，包括：给利用预设N种度量算法获得的关联度量值，根据第一预设规则分别分配权重，将所述关联度量值与对应的权重相乘并相加得到综合关联度量值，根据所述综合关联度量值的大小确定综合排序结果，将大于第一预设综合关联度量值阈值的文本，选入第一文本集合。

在一实施例中，所述利用所述关联度量值根据第一预设规则对所述候选文本集合中的每个文本进行排序，根据第一预设筛选条件构建第一文本集合的步骤，包括：根据利用预设N种度量算法获取关联度量值按照大小分别排序，得到N种排序集合；将所述N种排序集合的各个文本的关联度量值中，大于第一关联度量值阈值和/或小于第一排序位次阈值的文本，选入所述第一文本集合。

在一实施例中，所述将所述第一文本集合中每个文本根据第三预设规则进行排序，根据第二预设筛选条件排除噪声文本，构建第二文本集合的步骤，包括：将第一文本集合中的文本，给利用预设N种度量算法获得的关联度量值根据第三预设规则分别分配权重；将所述关联度量值与对应的权重相乘并相加得到综合关联度量值；根据所述综合关联度量值的大小确定综合排序结果；将小于第二预设综合关联度量值阈值的文本，作为噪声文本；从第一文本集合中去除所述噪声文本，构建所述第二文本集合。

在一实施例中，所述将所述第一文本集合中每个文本根据第三预设规则进行排序，根据第二预设筛选条件排除噪声文本，构建第二文本集合的步骤，包括：根据预设N种关联度量算法获取所述第一文本集合中的文本与所述目标文本的第二关联度量值；根据所述第二关联度量值按照大小分别排序，得到N种排序集合；将所述N种排序集合各个文本的关联度量值中，小于第二关联度量值阈值和/或在大于第二排序位次的文本，作为噪声文本；从第一文本集合中去除所述噪声文本，构建所述第二文本集合。

在一实施例中，将所述第一文本集合中的文本，所述第二预设规则根据与所述目标文本的关联度量值大小或关联度量值的排序位次进行设定，获取目标文本的检索排序结果；优选地，利用N种关联度量算法获取预设样本与候选文本集合中每个文本的关联度量值，获取预设样本的关联度量值的在预设区段上的召回率，根据预设区段上的召回率给N种关联度量算法设置相应的权重，获取候选文本集合中每个文本的综合排序值，根据综合排序值获取目标文本的检索排序结果；优选地，根据N种关联度量算法获取目标文本的关联度量值的N种排位次序，根据N种排位次序获取候选文本集合中每个文本的综合排序值，根据综合排序值获取目标文本的检索排序结果；优选地，利用N种关联度量算法获取预设样本与候选文本集合中每个文本的关联度量值，并获取预设样本对应最相关文本在候选文本集合中根据关联度量值的得到排序位次，所述根据预设样本的排位位次的平均召回率或在预设区段上的召回率，给N种关联度量算法设置相应的权重，获取候选文本集合中每个文本的综合排序值，根据综合排序值获取目标文本的检索排序结果。

在一实施例中，将所述第二文本集合中的文本，所述第二预设规则根据与所述目标文本的关联度量值大小或关联度量值的排序位次进行设定，所述进行排序，获取目标文本的检索排序结果；优选地，利用N种关联度量算法获取预设样本与候选文本集合中每个文本的关联度量值，获取预设样本的关联度量值的在预设区段上的召回率，根据预设区段上的召回率给N种关联度量算法设置相应的权重，获取候选文本集合中每个文本的综合排序值，根据综合排序值获取目标文本的检索排序结果；优选地，根据N种关联度量算法获取目标文本的关联度量值的N种排位次序，根据N种排位次序获取候选文本集合中每个文本的综合排序值，根据综合排序值获取目标文本的检索排序结果；优选地，利用N种关联度量算法获取预设样本与候选文本集合中每个文本的关联度量值，并获取预设样本对应最相关文本在候选文本集合中根据关联度量值的得到排序位次，所述根据预设样本的排位位次的平均召回率或在预设区段上的召回率，给N种关联度量算法设置相应的权重，获取候选文本集合中每个文本的综合排序值，根据综合排序值获取目标文本的检索排序结果。

在一实施例中，所述获取所述目标文本与所述候选文本集合中每个文本的关联度量值的步骤，包括：利用预设一种或N种关联度量算法，根据所述目标文本对应的变形文本，获取目标文本与候选文本集合中每个文本或与候选文本集合中每个文本对应的变形文本的关联度量值。

第二方面，本发明实施例提供一种文本的检索排序确定***，包括：目标文本与候选文本集合获取模块，用于获取待检索的目标文本和候选文本集合；关联度量值获取模块，用于获取所述目标文本与所述候选文本集合中每个文本的关联度量值；第一文本集合构建模块，用于利用所述关联度量值根据第一预设规则对所述候选文本集合中的每个文本进行排序，根据第一预设筛选条件构建第一文本集合；检索排序结果获取模块，用于将所述第一文本集合中每个文本根据第二预设规则进行排序，获取目标文本的检索排序结果。

第三方面，本发明实施例提供一种计算机设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行本发明第一方面提供的文本的检索排序确定方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行本发明第一方面提供的文本的检索排序确定方法。

本发明技术方案，具有如下优点：

本发明提供的文本的检索排序确定方法及***，首先获取待检索的目标文本和候选文本集合，该目标文本可以为一篇专利；进一步的获取所述目标文本与所述候选文本集合中每个文本的关联度量值，该关联度可以为相似度；然后利用关联度量值根据第一预设规则对所述候选文本集合中的每个文本进行排序，根据第一预设筛选条件构建第一文本集合；最后将所述第一文本集合中每个文本根据第二预设规则进行排序，获取目标文本的检索排序结果。相对于现有技术，用户无法得知最佳的检索结果，需要逐一浏览使用各种排列方式，检索效率低，本申请实施例提供的方法集合多种算法的优势，提高专利检索结果的精准度，提升用户的检索效率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本的检索排序确定方法一个具体示例的流程图；

图2为本发明实施例提供的文本的检索排序确定方法中构建第一文本集合一个实施例的步骤流程示意图；

图3为本发明实施例提供的三种是算法在各个排位区段精准度示意图；

图4为本发明实施例提供的文本的检索排序确定方法另一个具体示例的流程图；

图5为本发明实施例提供的构建第二文本集合一个实施例的步骤流程示意图；

图6为本发明实施例提供的构建第二文本集合另一个实施例的步骤流程示意图；

图7为本发明实施例提供的文本的检索排序确定***一个具体示例的组成图；

图8为本发明实施例提供的计算机设备一个具体示例的组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明实施例提供一种文本的检索排序确定方法，可以应用于电子设备，该电子设备可以为服务器，也可以为终端，如图1所示，该方法包括如下步骤：

步骤S1:获取待检索的目标文本和候选文本集合。

在实际应用中，待检索的目标文本包括但不限定于技术文献、专利、学术论文等，本发明实施例中，该目标文本以专利为例进行说明，该候选文本集合可以为候选专利集合。服务器可以接收用户在用户终端输入的要进行检索的目标专利，并从专利数据库获取到候选专利集合，根据使用场景，可能是全库的专利，也可能是通过其他方式自定义的一个专利集合，例如只包括中国专利的集合，或者该候选专利集合也可以为专利库中一个技术领域的所有专利的一个子集，可以包括一万篇专利，需要说明的是，该候选专利集合中包括的专利的数量只是举例而并非限定。

步骤S2:获取目标文本与候选文本集合中每个文本的关联度量值。

在实际应用中，目标文本与候选文本集合中每个文本的关联度量值可以为相似度、新颖度、重要度、价值度等任意可以表示目标文本与候选文本集合中每个文本关联度的度量值。本发明实施例以相似度为例进行说明，可以采用N种相似度算法获取目标专利与预候选专利集合每个文利的相似度，其中N不小于2。在本发明实施例中，以结构分析、关键词分析及语义分析三种相似度计算方法获取相似度值进行说明，但是不限于此，在其他实施例中可以选择任意两种或两种以上相似度计算方法。

在实际应用中，获取所述目标文本与所述候选文本集合中每个文本的关联度量值的步骤，包括：利用预设一种或N种关联度量算法，根据目标文本对应的变形文本，获取目标文本与候选文本集合中每个文本或与候选文本集合中每个文本对应的变形文本的关联度量值。

本发明实施例中的变形文本是与原文本相关联的其他表达形式文本，例如是：与原文本对应的其他语言的译文；根据原文本内容进行的缩写、改写或概括文本；原文本包含的部分文本内容(例如，对专利文本而言，可以选取目标文本的说明书摘要、权利要求书或者说明书中的全部或部分内容)；与原文本内容相对应的其他文本(例如，对于专利文本而言，可以是原专利文本的同族专利文本)等等，以上均作为举例说明，不以此为限。

在一具体实施例中，获取目标文本与候选文本集合中每个文本的关联度量值的过程，可以利用预设N种关联度量算法，根据所述目标文本中的中文本或其英文译文，分别获取目标文本与候选文本集合中每个文本的关联度量值。例如，可以利用预设N种相似度算法，分别计算目标专利的英文文本与候选文本集合中每个专利的相似度，或者计算英文专利的中文译文与候选文本集合中每个专利的相似度，来获取不同的排序方式。

在一具体实施例中，获取目标文本与候选文本集合中每个文本的关联度量值的过程，可以是利用一种关联度量算法获取目标专利与候选专利集合中每个专利的关联度量值及候选专利文本集合中对应的其他语言的译文的相似度值，来获取不同的排序方式。

在另一具体实施例中，获取目标文本与候选文本集合中每个文本的关联度量值的过程，还可以是利用预设N种关联度量算法，根据所述目标文本中不同的文字内容，获取目标文本与候选文本集合中每个文本的关联度量值。例如，可以利用预设N种相似度算法，计算目标专利中说明书摘要、权利要求书或者说明书的内容与候选专利集合中的每个文本的说明书摘要、权利要求书或者说明书的全部或部分内容的相似度，来获取不同的排序方式。

步骤S3:利用关联度量值根据第一预设规则对候选文本集合中的每个文本进行排序，根据第一预设筛选条件构建第一文本集合。

本发明实施例中，第一文本集合是对候选专利集合中的各专利进行初步筛选而构建的初选专利集合。

在一实施例中，如图2所示，步骤S3构建初选专利集合的过程，可以具体包括以下步骤:

步骤S31:根据预设N种关联度量算法获取的关联度量值，分别对候选文本集合中的每个文本进行排序，得到N种排序集合。

在一具体实施例中，利用上述结构分析、语义分析及关键词分析三种相似度算法，分别将目标专利与预设专利集合中每个专利的相似度按照从大到小进行排序，从而得到三种相似度算法对应的三种序方式的专利集合X、Y、Z。

步骤S32：对N种排序集合根据第一预设规则进行综合排序，根据第一预设筛选条件构建第一文本集合。

在一实施例中，给利用预设N种度量算法获得的关联度量值，根据第一预设规则分别分配权重，将所述关联度量值与对应的权重相乘并相加得到综合关联度量值，根据所述综合关联度量值的大小确定综合排序结果，将大于第一预设综合关联度量值阈值的文本，选入第一文本集合。

在一具体实施例中，可以根据已知的最相关文本，例如是审查过程中的X文献作为最相关文本对上述三种相似度算法的相似性效果进行对比和验证，获取每种计算方法的优势区段，进而选择每种计算方式纳入初选集合的专利数量。例如，取样了100个专利，分别采用上述三种相似度算法进行排序进行对比，仅以其中3组数据做举例，如表1所示：

表1

表1中示出，对于取样的目标专利(如CN104983351A)，该专利的最相关专利(最相关专利指审查员给出的专利的X文献，如对应于 CN104983351A，其最相关专利是CN203247669U)，分别利用关键词分析 (算法1)、结构分析(算法2)及语义分析(算法3)获取的最相关专利在全库中的排列值。

对于采样的100个专利，经过统计得到各目标专利的最相关文件在各个排位区段个数，如表2所示的为各目标专利的最相关文件在各个排位区段个数的统计结果，并且基于表2中数据形成的三种相似度算法的精准度对比曲线如图3所示。召回率是检索出的相关文档数和文档库中所有的相关文档数的比率，可以衡量检索***的查全率，基于表2中的数据形成如表3中所示的各目标专利的最相关文件在各个排位区段个数的召回率：

表2

表3

根据上述的统计结果，对于候选专利集合中的专利J，若其三种算法算出的相对于目标专利O的相似度分别为Rx、Ry、Rz，可分别计算Rx、Ry、 Rz所处的区段的召回率，确定在每个区段上的权重比例，设其分别为W1、 W2、W3，对其进行运算后重新排序，则得到其综合相似度值J'为： J'＝Rx*W1+Ry*W2+Rz*W3，将综合相似度值大于预设值的专利选入初选专利集合中。

在一实施例中，根据利用预设N种度量算法获取关联度量值按照大小分别排序，得到N种排序集合；将所述N种排序集合的各个文本的关联度量值中，大于第一关联度量值阈值和/或小于第一排序位次阈值的文本，选入所述第一文本集合。

在一具体实施例中，可根据排列位次求和的方式进行筛选：分别获取专利K在X、Y、Z三个集合中的三种方式排列位次Kx、Ky、Kz，进行求和计算，若其位次在小于预设阈值时，则入选初选专利集合，例如：对于候选文本集合中的专利K，若∑(Kx，Ky，Kz)小于500(此范围根据经验值默认或者可由用户自行设定)位之内，则将该专利选入初选专利集合。

在一具体实施例中，可根据排列位次平均值进行筛选：分别获取专利K 在X、Y、Z三个集合中的三种方式排列位次的平均值mean(Kx，Ky，Kz)，若其位次在小于预设阈值时，则入选初选专利集合，例如：对于候选文本集合的专利K，若mean(Kx，Ky，Kz)小于100(此范围根据经验值默认或者可由用户自行设定)位之内，则将该专利选入初选专利集合。

在一具体实施例中，可根据排列位次最小值进行筛选：分别获取专利K 在X、Y、Z三个集合中的排列位次Kx，Ky，Kz，找出排列位次最小min (Kx，Ky，Kz)的相似度算法，其位次在小于预设阈值时，则入选初选专利集合，例如：对于候选文本集合的专利K，若min(Kx，Ky，Kz)在前 50(此范围根据经验值默认或者可由用户自行设定)位之内，则将该专利选入初选专利集合。

在一具体实施例中，可根据多种排列位次同时小于预设位次阈值的方式进行筛选：分别获取专利K在X、Y、Z三个集合中的排列位次Kx，Ky， Kz，如Kx，Ky，Kz中如有两个或两个以上排在前n位，则入选初选专利集合，在实际应用中可随着满足条件的项数的增加，预先设定的阈值n可适当增大。

在一具体实施例中，可分别获取专利K在X、Y、Z三个集合中的排列位次Kx，Ky，Kz，并对其中两个排列位次进行排列组合并进行求和运算，分别获取∑(Kx，Ky)，∑(Kx，Kz)，∑(Ky，Kz)，取其中的最小值，其位次在小于预设阈值时，则入选初选专利集合，例如：对于候选文本集合中的专利K，若min(∑(Kx，Ky)，∑(Kx，Kz)，∑(Ky，Kz))在前100(此范围根据经验值默认或者可由用户自行设定)位之内，则入选初选专利集合。

在一具体实施例中，分别获取专利K在X、Y、Z三个集合中的排列位次Kx，Ky，Kz，去除排列位次最大的数值，并将其余数值求和，其位次小于预设阈值时，则入选初选专利集合，例如：对于候选集合中的专利K，若∑(Kx，Ky，Kz)-max(Kx，Ky，Kz)小于70(此范围根据经验值默认或者可由用户自行设定)位之内，则将该专利选入初选范围。

在一具体实施例中，分别获取专利K在X、Y、Z三个集合中的排列位次Kx，Ky，Kz，去除排列位次最大的数值max(Kx，Ky，Kz)后，获取另外两种方式排列位次的平均值，其位次在小于预设阈值时，则入选初选专利集合，例如：对于候选集合中的专利K，若(∑(Kx，Ky，Kz)-max (Kx，Ky，Kz))/2小于70(此范围根据经验值默认或者可由用户自行设定) 位之内，则将该专利选入初选专利集合。

在一具体实施例中，根据预设策略对预设N种关联度量算法分别计算所述目标文本与所述候选文本集合中每个文本的关联度量值进行分析，获取分析结果；根据分析结果判断所述候选文本集合中每个文本是否满足预设条件，将候选文本集合中满足所述预设条件的文本选入所述第一文本集合中。例如：可以通过差值分析的方式进行筛选：分别获取专利K在X、 Y、Z三个集合中的排列位次Kx，Ky，Kz，分别选取三个集合中的排列位次的最大值max(Kx，Ky，Kz)和三个集合中的排列位次的最小值min(Kx， Ky，Kz)计算位次对比系数，位次对比系数可以通过以下可选的四个方案计算：

可选方案1：C1＝(max(Kx，Ky，Kz)-min(Kx，Ky，Kz))/max (Kx，Ky，Kz)；

可选方案2：C1＝(max(Kx，Ky，Kz)-min(Kx，Ky，Kz))/min(Kx， Ky，Kz)；

可选方案3：C3＝max(Kx，Ky，Kz)/min(Kx，Ky，Kz)；

可选方案4：C4＝min(Kx，Ky，Kz)/max(Kx，Ky，Kz)。

可以通过上述可选的四个可选方案获取的位次对比系数(仅以此举例，不以此为限)，根据预设的阈值判断是否属于高落差专利(指两种不同的排序方式差距比较大的情况)，如果属于，则根据预先设定的策略，确定该专利是否被导入初选专利集合。其中，预先设定的策略可以是根据大数据统计分析结果和实务经验获得的专利选取策略方案。例如，根据大数据统计分析结果和实务经验，认为专利K在集合X中的位次Kx远小于其在集合 Y中的位次Ky时，若该专利满足条件1(如技术属于技术领域F1)，则将其选入初选集合，若该专利满足条件2(如技术属于技术领域F2)，则不将其选入初选专利集合。

在一具体实施例中，根据分别针对每种相关度的计算方法给出一个预设的最低的相关度阈值Rtx、Rty、Rtz，只有高于最低阈值的专利才能被选入初选专利集合。

在一具体实施例中，预设一个综合阈值Rt1，针对专利K，分别利用三种相关度计算方式，获取其在相对于目标专利O的相似度Rx，Ry，Rz；选取相似度最大的值max(Rx，Ry，Rz)判断max(Rx，Ry，Rz)是否大于综合阈值Rt1，如果大于综合阈值Rt1，将专利K选入初选集合。

在一具体实施例中，预设一个综合阈值Rt2针对专利K，分别利用三种相关度计算方式，获取其在相对于目标专利O的相似度Rx，Ry，Rz；选取相似度平均值mean(Rx，Ry，Rz)判断mean(Rx，Ry，Rz)是否大于综合阈值Rt2，如果大于综合阈值Rt2，将候选文本集合的专利K选入初选集合。

在一具体实施例中，针对每种相似度算法设定最低的相关度阈值Rx， Ry，Rz中，如果专利K有两个或两个以上大于预设的阈值，则将其导入初选专利集合。

以上实施例仅作举例的可选的实施例，仅以此举例不以此为限，在其他实施例中，只要不相互冲突可以同时满足上述两个或两个以上的选取方法对候选专利集合中的专利进行选取，构建初选专利集合。

步骤S4:将第一文本集合中每个文本根据第二预设规则进行排序，获取目标文本的检索排序结果。在本发明实施例中，第二预设规则根据与目标文本的关联度量值大小或关联度量值的排序位次进行设定。

在一具体实施例中，如图4所示，执行步骤S4可具体包括以下步骤：

步骤S41:将第一文本集合中每个文本根据第三预设规则进行排序，根据第二预设筛选条件排除噪声文本，构建第二文本集合。

本发明实施例中，第二文本集合为用户对初选专利集合进行进一步筛选、去噪后获得的相似专利集合。

在一实施例中，如图5所示，构建相似专利的集合的过程，可具体包括以下步骤：

步骤S411：将第一文本集合中的文本，给利用预设N种度量算法获得的关联度量值根据第三预设规则分别分配权重。

在实际应用中，本发明实施例中，利用预设N种度量算法获得根据目标专利于初选专利集合中的各个专利的新颖度、相似度等，第三预设规则可以参照构建第一文本集合中的第一规则的方式，在预设值上可以做适应调整，也可以采用其他预设规则，例如是人为根据经验设定等等，仅以此举例，不以此为限。

步骤S412：将关联度量值与对应的权重相乘并相加得到综合关联度量值。

本发明实施例中，将关联度量值对应的权重可以根据各个分析算法在如图3所示的在所处的区段的召回率，确定在每个区段上的权重比例。

步骤S413：根据综合关联度量值的大小确定综合排序结果。

步骤S414：将小于第二预设综合关联度量值阈值的文本，作为噪声文本。

本发明实施例中，可以将综合关联度量值小于预设值的专利或者将排位次序大于预设值的专利作为噪声专利，仅以此举例，不以此为限。

步骤S415：从第一文本集合中去除噪声文本，构建第二文本集合。

本发明实施例，在构建的初选专利集合中，去除噪声专利后构建相似专利集合。

在另一实施例中，如图6所示，构建相似专利集合的过程，可具体包括以下步骤：

步骤S416：根据预设N种关联度量算法获取所述第一文本集合中的文本与所述目标文本的第二关联度量值。

步骤S417：根据所述第二关联度量值按照大小分别排序，得到N种排序集合。

步骤S418：将N种排序集合各个文本的关联度量值中，小于第二关联度量值阈值和/或在大于第二排序位次的文本，作为噪声文本。

步骤S419：从第一文本集合中去除噪声文本，构建第二文本集合。

本发明实施例中，可参照构建初选专利集合中所采用的根据相似度阈值和/或根据各个相似度算法得到的排序，通过设置适当的阈值去除噪声专利，构建相似专利集合，这里不再赘述。

步骤S42:将第二文本集合中的每个文本根据第二预设规则进行排序，获取目标文本的检索排序结果。

在本发明实施例中，第二预设规则根据与目标文本的关联度量值大小或关联度量值的排序位次进行设定。在一具体实施例中，采用平均分配权值的模式(三种算法的权重相同)，即：Wx＝Wy＝Wz＝1/3例如，若某专利J 相对于目标专利O的三种算法获得的相似度分别为：Rx＝90％，Ry＝85％， Rz＝96％，则该候选专利J相对于目标专利的简单加权平均相似度为： R＝90％*1/3+85％*1/3+96％*1/3＝90.3％，根据各个专利的加权平均相似度，获取目标专利的检索排序结果。

在一具体实施中，可根据经验对每种算法根据经验可以人为地赋予一定权重，例如，可人为赋予Wx＝20％；Wy＝30％；Wz＝50％，根据各个专利的权重值，获取目标专利的检索排序结果。

在一具体实施例中，利用N种关联度量算法获取预设样本与候选文本集合中每个文本的关联度量值，获取预设样本的关联度量值的在预设区段上的召回率，根据预设区段上的召回率给N种关联度量算法设置相应的权重，获取候选文本集合中每个文本的综合排序值，根据综合排序值获取目标文本的检索排序结果。例如：针对每种计算方法的相关度划分为若干区段，通过每个区段的X文献召回数量和该相关度区段专利总数，计算该区段的专利的召回率，如对相关度划分为以下6个区段：

对于算法1统计结果:

大于95％:Z11＝(X文献召回数量/总数)＝5％

95％～90％:Z12＝(X文献召回数量/总数)＝10％

90％～80％:Z13＝(X文献召回数量/总数)＝11％

80％～70％:Z14＝(X文献召回数量/总数)＝13％

70％～60％:Z15＝(X文献召回数量/总数)＝19％

60％以下:Z16＝(X文献召回数量/总数)＝42％

对于算法2统计结果:

大于95％:Z21＝(X文献召回数量/总数)＝3％

95％～90％:Z22＝(X文献召回数量/总数)＝12％

90％～80％:Z23＝(X文献召回数量/总数)＝17％

80％～70％:Z24＝(X文献召回数量/总数＝15％

70％～60％:Z25＝(X文献召回数量/总数)＝23％

60％以下:Z26＝(X文献召回数量/总数)＝30％

对于算法3的统计结果：

大于95％:Z31＝(X文献召回数量/总数)＝7％

95％～90％:Z32＝(X文献召回数量/总数)＝9％

90％～80％:Z33＝(X文献召回数量/总数)＝18％

80％～70％:Z34＝(X文献召回数量/总数)＝19％

70％～60％:Z35＝(X文献召回数量/总数)＝15％

60％以下:Z36＝(X文献召回数量/总数)＝32％

根据以上统计数据指定权重分配方案，例如：对于专利J，若其三种算法算出的相对于目标专利O的相似度分别为Rx、Ry、Rz，可分别计算Rx、 Ry、Rz所处的区段，根据上述统计结果找出其对应的权重比例，设其分别为W1、W2、W3，对其进行运算后重新排序，则其综合相似度值J'为： J'＝Rx*W1+Ry*W2+Rz*W3，根据各个专利的综合相似度值，获取目标专利的检索排序结果。

在一实施例中，综合相似度取三种算法获得的相似度的最高值，即max (Rx、Ry、Rz)。例如，若某专利相对于目标专利的三种算法获得的相似度分别为：Rx＝90％，Ry＝85％，Rz＝96％，则直接赋予该专利相对于目标专利的相似度为：R＝96％。

在一实施例中，可以采用间隔排序选取，例如，可分别用三种排序方式对相似专利集合进行排序，分别得到三个相似专利排序的有序集合X、 Y、Z最终的排序方式可以按照X1、Y1、Z1、X2、Y3、Z2、X3、Y3、 Z3...的方式依次进行间隔排列，例如某专利同时属于X2、Y6、Z53，则首先将其排在上述“X2”的位置上，到Y6位置时直接跳过此专利，选用后面的Y7专利(若Y7也已选用过了，依次后延)，Z53做类似处理。

在一实施例中，根据N种关联度量算法获取目标文本的关联度量值的 N种排位次序，根据N种排位次序获取候选文本集合中每个文本的综合排序值，根据综合排序值获取目标文本的检索排序结果。例如：用户可分别用三种排序方式对相似专利集合进行排序，分别得到三个相似专利排序的有序集合X、Y、Z，对于专利C，若其在三个集合中的排序分别为Cx、Cy、Cz，可对其进行运算后重新排序，例如，可将综合排序值C'设为 C'＝Cu+Cv+Cw，最终按照C'的大小进行排序，若出现多个等值的C'，则可根据预先设置的规则对这些专利进行排序，例如，可以比较各个C'对应的各组Cx、Cy、Cz的最小值，优先排列min(Cx、Cy、Cz)最小的专利，或者可以比较各个C'对应的各组Cx、Cy、Cz的最大值，优先排列max(Cx、 Cy、Cz)最小的专利。

在一实施例中，根据所述第二预设规则进行排序，获取目标文本的检索排序结果的步骤，包括：利用N种关联度量算法获取预设样本与候选文本集合中每个文本的关联度量值，并获取预设样本对应最相关文本在候选文本集合中根据关联度量值的得到排序位次，所述根据预设样本的排位位次的平均召回率或在预设区段上的召回率，给N种关联度量算法设置相应的权重，获取候选文本集合中每个文本的综合排序值，根据综合排序值获取目标文本的检索排序结果，具体包括：

根据排布结果的分布情况进行权重赋值，在预设专利集合中取一批专利样本(如具有X文献的100个专利)，找出这些专利的最相关文献(例如，可利用专利审查信息中提供的X文献信息，定义X类对比文献为专利的最接近的对比文献)并将其与候选专利建立映射关系，分别用不同的相似度计算方法，计算出样本中的每一个专利的最接近的对比专利的相似度。针对不同的相似度计算方式，分别计算出样本专利的每个专利的X文献在整个候选专利集合中相对于目标专利的相关度排列位次(若一个样本专利对应多个X文献，则取其排序最靠前的一个)。按照以上方法，可获得每个样本专利对应的X文献Pi在三种不同算法中的排序：Pix、Piy、Piz(i＝1～100)。对获得的上述数据进行分析，获得每种运算方式的排序分布情况，根据排序分布情况对每种算法的优势区段，例如上述的如图3所示的三种算法在各个区段的精确度趋势比对。

根据上面统计结果可知，算法1和算法2在(前10位)和较后(101～ 1000位)的召回率较高，而在10～100的区段相较于其他计算方式没有明显的优势；算法3则呈现出相反的趋势。根据上述统计结果，可对综合排序计算公式的权重进行相应赋值和调整，根据对专利召回率的统计结果，可以分别按照以下两种方法之一对权重赋值：

方法一：分别统计每种算法在每个位次的平均召回率，根据召回率对不同的算法进行权重赋值，根据统计结果，三种算法最接近的对比文件排在第6位的比例分别是：1.5％、2.3％、0.6％，经计算，三种算法最接近的对比文件排在第6位的相对占比分别是：

算法1：占比＝1.5/(1.5+2.3+0.6)*100％＝34％，

算法2：占比＝2.3/(1.5+2.3+0.6)*100％＝52％，

算法3：占比＝0.6/(1.5+2.3+0.6)*100％＝14％；

则对于排在第6位的情况，分别给予34％、52％、14％的权重，对于专利C，若其在三个集合中的排序分别为Cx、Cy、Cz，根据上述方法找出其对应的权重比例，设其分别为W1、W2、W3，对其进行运算后重新排序，将其综合排序值设为：C'＝Cu*W1+Cv*W2+Cw*W3。

方法二：将检索结果命中的位次分为若干区段，分别统计每种算法在每个区段的召回率，根据召回率对不同的算法进行权重赋值例如，三种算法检索到最接近的专利排在第6～10位的比例分别是5％、3％、11％，经计算，三种算法最接近的对比文件排在第6～10位的相对占比分别是：

算法1：占比＝5/(5+3+11)*100％＝26％，

算法2：占比＝3/(5+3+11)*100％＝16％，

算法3：占比＝11/(5+3+11)*100％＝58％；

则对于排在第6位的情况，分别给予26％、16％、58％的权重，对于专利C，若其在三个集合中的排序分别为Cx、Cy、Cz，可分别计算Cx、Cy、 Cz所处的区段，根据上述方法找出其对应的权重比例，设其分别为W1、 W2、W3，对其进行运算后重新排序，则将其综合排序值为：C'＝Cu*W1+Cv*W2+Cw*W3。

以上实施例，仅做举例说明，不以此为限，在实际应用中在上述说明的基础上还可以做出其它不同形式的变化或变动。

本发明实施例提供的检索排序确定方法，首先获取待检索的目标文本和候选文本集合，该目标文本可以为一篇专利；进一步的获取所述目标文本与所述候选文本集合中每个文本的关联度量值，该关联度可以为相似度；然后利用关联度量值根据第一预设规则对所述候选文本集合中的每个文本进行排序，根据第一预设筛选条件构建第一文本集合；最后将所述第一文本集合中每个文本根据第二预设规则进行排序，获取目标文本的检索排序结果。本申请实施例提供的方法集合多种算法的优势，提高专利检索结果的精准度，提升用户的检索效率。

实施例2

本发明实施例提供一种文本的检索排序确定***，如图7所示，该***包括：

目标文本与候选文本集合获取模块1，用于获取所述目标文本与所述候选文本集合中每个文本的关联度量值。此模块执行实施例1中的步骤S1所描述的方法，在此不再赘述。

关联度量值获取模块2，用于获取所述目标文本与所述候选文本集合中每个文本的关联度量值。此模块执行实施例1中的步骤S2所描述的方法，在此不再赘述。

第一文本集合构建模块3，用于利用所述关联度量值根据第一预设规则对所述候选文本集合中的每个文本进行排序，根据第一预设筛选条件构建第一文本集合；此模块执行实施例1中的步骤S3所描述的方法，在此不再赘述。

检索排序结果获取模块4，用于将所述第一文本集合中每个文本根据第二预设规则进行排序，获取目标文本的检索排序结果。此模块执行实施例1 中的步骤S4所描述的方法，在此不再赘述。

本发明实施例提供的文本的检索排序确定***，首先获取待检索的目标文本和候选文本集合，该目标文本可以为一篇专利；进一步的获取所述目标文本与所述候选文本集合中每个文本的关联度量值，该关联度可以为相似度；然后利用关联度量值根据第一预设规则对所述候选文本集合中的每个文本进行排序，根据第一预设筛选条件构建第一文本集合；最后将所述第一文本集合中每个文本根据第二预设规则进行排序，获取目标文本的检索排序结果。本申请实施例提供的***集合多种算法的优势，提高专利检索结果的精准度，提升用户的检索效率。

实施例3

本发明实施例提供一种计算机设备，如图8所示，包括：至少一个处理器401，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口403，存储器404，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，通信接口403可以包括显示屏 (Display)、键盘(Keyboard)，可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行图1描述的文本的检索排序确定方法，存储器404中存储一组程序代码，且处理器401调用存储器404中存储的程序代码，以用于执行实施例1中的文本的检索排序确定方法。

其中，通信总线402可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器404可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD) 或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器404还可以包括上述种类的存储器的组合。

其中，处理器401可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU 和NP的组合。

其中，处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写： GAL)或其任意组合。

可选地，存储器404还用于存储程序指令。处理器401可以调用程序指令，实现如本申请实施例1中提供的文本的检索排序确定方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机可执行指令，该计算机可执行指令可执行上述实施例1中的文本的检索排序确定方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种文本的检索排序确定方法，其特征在于，包括如下步骤：

获取待检索的目标文本和候选文本集合；

利用预设N种关联度量算法分别计算所述目标文本与所述候选文本集合中每个文本的关联度量值，所述关联度量值表示目标文本与候选文本集合中每个文本关联度的度量值，所述N为大于或者等于2的正整数；

利用所述关联度量值根据第一预设规则对所述候选文本集合中的每个文本进行排序，根据第一预设筛选条件构建第一文本集合；

将所述第一文本集合中每个文本根据第二预设规则进行排序，获取目标文本的检索排序结果，所述第二预设规则根据与所述目标文本的关联度量值的排序位次进行设定，获取目标文本的检索排序结果，包括：利用N种关联度量算法获取预设样本与候选文本集合中每个文本的关联度量值，并获取预设样本对应最相关文本在候选文本集合中根据关联度量值的得到排序位次，根据预设样本的排位位次的平均召回率或在预设区段上的召回率，给N种关联度量算法设置相应的权重，获取候选文本集合中每个文本的综合排序值，根据综合排序值获取目标文本的检索排序结果；

所述利用所述关联度量值根据第一预设规则对所述候选文本集合中的每个文本进行排序，根据第一预设筛选条件构建第一文本集合的步骤，包括：

根据预设N种关联度量算法获取的关联度量值，分别对所述候选文本集合中的每个文本进行排序，得到N种排序集合；

对所述N种排序集合根据第一预设规则进行综合排序，根据第一预设筛选条件构建第一文本集合。

2.根据权利要求1所述的文本的检索排序确定方法，其特征在于，所述将所述第一文本集合中每个文本根据第二预设规则进行排序，获取目标文本的检索排序结果的步骤，包括：

将所述第一文本集合中每个文本根据第三预设规则进行排序，根据第二预设筛选条件排除噪声文本，构建第二文本集合；

将所述第二文本集合中的每个文本根据第二预设规则进行排序，获取目标文本的检索排序结果。

3.根据权利要求1所述的文本的检索排序确定方法，其特征在于，所述对所述N种排序集合根据第一预设规则进行综合排序，根据第一预设筛选条件构建第一文本集合的步骤，包括：

根据预设策略对预设N种关联度量算法分别计算所述目标文本与所述候选文本集合中每个文本的关联度量值进行分析，获取分析结果；根据分析结果判断所述候选文本集合中每个文本是否满足预设条件，将候选文本集合中满足所述预设条件的文本选入所述第一文本集合中。

4.根据权利要求1所述的文本的检索排序确定方法，其特征在于，所述对所述N种排序集合根据第一预设规则进行综合排序，根据第一预设筛选条件构建第一文本集合的步骤，包括：

给利用预设N种度量算法获得的关联度量值，根据第一预设规则分别分配权重，将所述关联度量值与对应的权重相乘并相加得到综合关联度量值，根据所述综合关联度量值的大小确定综合排序结果，将大于第一预设综合关联度量值阈值的文本，选入第一文本集合。

5.根据权利要求1所述的文本的检索排序确定方法，其特征在于，所述利用所述关联度量值根据第一预设规则对所述候选文本集合中的每个文本进行排序，根据第一预设筛选条件构建第一文本集合的步骤，包括：

根据利用预设N种度量算法获取关联度量值按照大小分别排序，得到N种排序集合；

将所述N种排序集合的各个文本的关联度量值中，大于第一关联度量值阈值和/或小于第一排序位次阈值的文本，选入所述第一文本集合。

6.根据权利要求2所述的文本的检索排序确定方法，其特征在于，所述将所述第一文本集合中每个文本根据第三预设规则进行排序，根据第二预设筛选条件排除噪声文本，构建第二文本集合的步骤，包括：

将第一文本集合中的文本，给利用预设N种度量算法获得的关联度量值根据第三预设规则分别分配权重；

将所述关联度量值与对应的权重相乘并相加得到综合关联度量值；

根据所述综合关联度量值的大小确定综合排序结果；

将小于第二预设综合关联度量值阈值的文本，作为噪声文本；

从第一文本集合中去除所述噪声文本，构建所述第二文本集合。

7.根据权利要求2所述的文本的检索排序确定方法，其特征在于，所述将所述第一文本集合中每个文本根据第三预设规则进行排序，根据第二预设筛选条件排除噪声文本，构建第二文本集合的步骤，包括：

根据预设N种关联度量算法获取所述第一文本集合中的文本与所述目标文本的第二关联度量值；

根据所述第二关联度量值按照大小分别排序，得到N种排序集合；

将所述N种排序集合各个文本的关联度量值中，小于第二关联度量值阈值和/或在大于第二排序位次的文本，作为噪声文本；

8.根据权利要求1所述的文本的检索排序确定方法，其特征在于，所述利用预设N种关联度量算法分别计算所述目标文本与所述候选文本集合中每个文本的关联度量值的步骤，包括：

利用预设一种或N种关联度量算法，根据所述目标文本对应的变形文本，获取目标文本与候选文本集合中每个文本或与候选文本集合中每个文本对应的变形文本的关联度量值，所述变形文本为与原文本相关联的其他表达形式文本。

9.根据权利要求8所述的文本的检索排序确定方法，其特征在于，所述利用预设一种或N种关联度量算法，根据目标文本对应的变形文本，获取目标文本与候选文本集合中每个文本或与候选文本集合中每个文本对应的变形文本的关联度量值的步骤，包括：

利用预设N种关联度量算法，根据所述目标文本中的中文本或其英文译文，分别获取目标文本与候选文本集合中每个文本的关联度量值。

10.根据权利要求8所述的文本的检索排序确定方法，其特征在于，所述利用预设一种或N种关联度量算法，根据目标文本对应的变形文本，获取目标文本与候选文本集合中每个文本或与候选文本集合中每个文本对应的变形文本的关联度量值的步骤，包括：

利用一种关联度量算法获取目标专利与候选专利集合中每个专利的关联度量值及候选专利文本集合中对应的其他语言的译文的相似度值。

11.一种计算机设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-10中任一所述的文本的检索排序确定方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如权利要求1-10中任一所述的文本的检索排序确定方法。