CN115062135A

CN115062135A - 一种专利筛选方法与电子设备

Info

Publication number: CN115062135A
Application number: CN202210988537.8A
Authority: CN
Inventors: 杨芳; 侯纯阳; 张艳; 彭珍; 刘雯静; 盛兴; 陈二松; 姚稳稳
Original assignee: Beijing Kehuiyuan Consulting Co ltd; State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd
Current assignee: Beijing Kehuiyuan Consulting Co ltd; State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-09-16
Anticipated expiration: 2042-08-17
Also published as: CN115062135B

Abstract

本说明书公开一种专利筛选方法和电子设备，该方法包括生成与目标技术主题相对应的检索关键词集合，并据此在专利数据库中检索得到关联专利集合，关联专利集合内包含失效关联专利与有效关联专利；计算关联专利集合内每一关联专利的专利价值，并据此统计各有效关联专利的专利价值基准值，专利价值基准值用于表征该集合内所有有效关联专利的专利价值分布情况；利用专利价值基准值在关联专利集合的各失效关联专利中筛选出所有潜在可用专利，潜在可用专利具有与有效关联专利相当的专利价值。

Description

一种专利筛选方法与电子设备

技术领域

本说明书涉及无形资产的信息处理技术领域，尤其涉及一种专利筛选方法与电子设备。

背景技术

随着开放式创新理念的不断推广，企业通过吸收外部专利以辅助提升自身创新能力已逐渐普遍。因专利数据庞大，从中筛选出能够辅助参与企业创新活动的专利十分困难。针对这一问题，为提升上述专利的筛选效率，出现了针对有效专利的专利筛选方案。

当前的专利筛选方案，以有效专利为数据源，借助自然语言处理技术从中筛选出与企业研发方向相匹配的专利，进而辅助企业研发过程。

但是，有效专利因其具有排他性权利，因而在通过购买或许可谈判等方式获得该权利时，通常需要企业付出较大的人力物力成本。同时，因有效专利通常具体较高的市场竞争价值，通过上述专利运营活动来获得该专利也十分困难。

发明内容

针对现有专利筛选方案仅支持有效专利筛选，进而导致筛选结果难以参与企业创新过程这一问题，本说明书提供一种专利筛选方法和电子设备，技术方案如下：

根据本说明书的第一方面，提供一种专利筛选方法，包括：

生成与目标技术主题相对应的检索关键词集合，并据此在专利数据库中检索得到关联专利集合，所述关联专利集合内包含失效关联专利与有效关联专利；

计算所述关联专利集合内每一关联专利的专利价值，并据此统计各有效关联专利的专利价值基准值，所述专利价值基准值用于表征该集合内所有有效关联专利的专利价值分布情况；

利用所述专利价值基准值在所述关联专利集合的各失效关联专利中筛选出所有潜在可用专利，所述潜在可用专利具有与所述有效关联专利相当的专利价值。

根据本说明书的第二方面，提供一种专利筛选装置，包括：

检索单元，用于生成与目标技术主题相对应的检索关键词集合，并据此在专利数据库中检索得到关联专利集合，所述关联专利集合内包含失效关联专利与有效关联专利；

价值计算单元，用于计算所述关联专利集合内每一关联专利的专利价值，并据此统计各有效关联专利的专利价值基准值，所述专利价值基准值用于表征该集合内所有有效关联专利的专利价值分布情况；

筛选单元，用于利用所述专利价值基准值在所述关联专利集合的各失效关联专利中筛选出所有潜在可用专利，所述潜在可用专利具有与所述有效关联专利相当的专利价值。

根据本说明书的第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现上述专利筛选方法。

本发明将具有辅助创新能力的专利筛选方向由有效专利转移至失效专利，并通过计算有效专利的专利价值，进而在失效专利中筛选出在专利价值方面与有效专利差距不大的失效专利。因失效专利已成为公共领域的现有技术，其可以被任何人***，这就使得这些失效专利被企业使用以辅助创新活动开展的门槛大大降低，相比于现有专利筛选方案而言，不再需要投入大量人力物力进行专利运营活动，进而解决现有专利筛选方案的筛选结果难以参与企业创新过程这一问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本说明书实施例的一种专利筛选方法的流程示意图；

图2是本说明书实施例的一种专利筛选装置结构示意图；

图3是用于配置本说明书实施例装置的一种设备的结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本说明书实施例中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行详细地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于保护的范围。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

现有的专利筛选方案，视角集中于在海量专利数据中筛选出高价值的有效专利，但实际情况却因有效专利处于有效状态，既难以通过专利运营手段获得该专利的使用权、又需要承担研发活动涉及该专利时可能带来的侵权风险。

针对现有专利筛选方案存在的问题，本发明提出一种专利筛选方法。参考图1，该专利筛选方法包括以下步骤：

S101，生成与目标技术主题相对应的检索关键词集合，并据此在专利数据库中检索得到关联专利集合，关联专利集合内包含失效关联专利与有效关联专利。

在一个实施例中，本步骤中描述的目标技术主题可以是人为根据实际情况选定的。例如，某一家服饰企业的研发人员在针对某种面料的研发活动中，希望从外部专利获得帮助，其可选择将该面料作为本步骤中所描述的目标技术主题。在另一个实施例中，本步骤中所描述的目标技术主题可以由主题模型自动化的识别，具体请参见后续对S201至S203的描述，这里暂不赘述。

本步骤中，检索关键词集合的生成有多种实现方式。在一个实施例中，可以预先设定数个技术主题及每一技术主题相对应的检索关键词。在具体实施过程中，可借助字典实现。例如，预先构建由数个词条组成技术字典，每一词条包含一个技术主题以及对应该技术主题的数个检索关键词。在另一实施例中，可以借助语义模型完成对检索关键词集合的生成。具体请参见后续对S301至S303的描述，这里暂不赘述。

作为一种利用检索关键词集合进行专利检索的实现方式，可以通过预设包含检索字段的检索模板并通过填入检索关键词以形成检索语句的方式实现检索。具体的检索字段因专利数据库不同而存在差异，实施时可根据实际情况选择，本发明不对其进行限定。

这里，以专利数据库为智慧芽专利数据库为例进行简单说明，该数据库支持标题、摘要、权利要求等多个检索字段。假设检索字段为标题+摘要+权利要求，该智慧芽专利数据库的检索字段为“TAC”，那么可预先设定检索模板为“TAC：()”。

当获得检索关键词集合时，可将检索关键词集合中的每一个词之间***空格或“OR”，形成检索词序列。之后将该检索词序列填入预先设定的检索模板中以形成完整的检索语句。例如，将检索关键词集合“绝缘套管、超高压、墙体”处理为检索词序列“绝缘套管OR超高压OR墙体”，形成检索语句“TAC：(绝缘套管OR超高压OR墙体)”。之后，将该检索语句输入检索页面的检索窗口，则可通过检索网站实现专利检索。

当然，上述流程描述的仅是一种专利检索的实现方式。在具体实施时，也可采用专利数据库开放的API接口上传关键词集合等方式实现专利检索，本发明并不限定具体的检索方式。

需要说明的是，专利文本因公开、授权、复审等环节会造成一个专利申请号对应有多种文本，海外多国申请也会存在对应于不同国家的不同版本的专利文本，对于专利文本是否合并同族、按照哪种条件进行合并同族、是否同时呈现申请版本与授权版本等专利检索结果的展示形式，本发明不做限制。

在一个实施例中，在通过专利数据库检索得到专利检索结果后，可借助专利数据库的批量下载功能将专利检索结果下载至本地，以方便后续步骤对专利文本的处理。此流程可通过模拟点击技术实现，由于模拟点击技术已为本领域技术人员所悉知且并非本发明的核心发明内容，因此本发明在此不对其进行详细介绍。

需要说明的是，在某一研发主体使用本方案进行专利筛选时，本步骤在检索得到关联专利集合后，可增加删除该研发主体自身所持有专利的步骤。

S102，评价关联专利集合内每一关联专利的专利价值，并据此统计各有效关联专利的专利价值基准值，专利价值基准值用于表征该集合内所有有效关联专利的专利价值分布情况。

首先，对现有的专利价值评价手段进行介绍。现有专利价值评价标准多由技术、市场及法律三个维度构成，三个维度的价值对应不同的权重以共同组成综合的专利价值，每一维度缺一不可。其中，法律维度用于评价专利的权利保护范围、剩余有效期限、以及专利文本的撰写质量等等内容。这一维度的价值评价适合于某一权利人评价自身所拥有专利的专利价值，但不适合于本发明的应用场景。举例来说，通过法律维度的价值指标，权利人可筛选出在法律层面存在一定权利缺陷的专利，这些专利在进行专利运营或是主张权利时，会因其法律层面的缺陷而存在一定的限制，进而提早作出应对措施。

聚焦于本发明，本发明的关键在于从大量失效专利中挖掘出与有效专利具有相当的专利价值的那些本不应该失效的专利，进而使研发主体可以无偿、低/无风险的使用这些有价值的失效专利参与研发。由此可知，在本发明的应用场景下，并非是权利人使用自己持有的专利参与专利运营或主张权利，因而本发明最终筛选得到的潜在可用专利的法律层面价值并不重要。即，该潜在可用专利因已经失效，其法律效力已经丧失，因而无需评价该专利的保护范围与剩余有效期限。基于上述分析，本发明的专利价值评价步骤中并不对失效关联专利的法律维度价值进行评价，这与现有技术的专利价值评价方式存在实质区别。

针对本发明这一特殊的应用场景，专利能否帮助企业辅助创新活动、缩短研发过程，其核心在于专利记载的技术方案在技术维度是否足够创新、在市场维度是否能够创造价值，本发明的专利价值评价方式便基于该思想设计。

针对专利的技术方案是否足够创新这一评价思想，本发明设计了多种实现方式。在一个实施例中，可通过关联专利的引用关系评价技术维度价值。具体的，可统计关联专利的前向引用与后向引用的数量，基于两者数量确定关联专利的技术层面价值。例如，计算前向引用的数量与后向引用的数量的商，将计算结果确定为关联专利的技术层面价值。在另一个实施例中，本发明设计了一种不单纯使用关联专利自身信息，而是借助其相关的其他专利完成技术维度专利价值评价的实现方式，具体请参见后续对S401至S403的描述，这里暂不赘述。

针对关联专利的技术方案是否能够创造市场价值这一评价思想，本发明设计了多种实现方式。在一个实施例中，可通过关联专利所属IPC分类号的专利申请量增速确定专利的市场价值。例如，识别关联专利的IPC分类号并在专利数据库中对其进行检索，统计近K年间每一年的专利申请量并据此计算平均增速。在另一个实施例中，本发明设计了一种不单纯使用关联专利自身信息，而是借助其相关的其他专利完成市场维度专利价值评价的实现方式，具体请参见后续对S501至S504的描述，这里暂不赘述。

至于如何基于市场维度专利价值与技术维度专利价值综合计算专利价值，可通过计算均值、分别赋予权重后再进行加权运算、因价值量级差距过大而先进行标准化再计算等多种方式实现。需要说明的是，此处的计算方式以能够综合体现市场维度专利价值与技术维度专利价值为原则，具体可根据实际情况设置。

至此，完成专利价值的评价流程，进入专利价值基准值的计算流程。

本发明设计了多种实现方式以计算各有效关联专利的专利价值基准值。作为一种实现方式，可计算各有效关联专利的专利价值均值，将该专利价值均值作为专利价值基准值。作为另一个实现方式，可首先将所有的专利价值标准化，并计算各有效关联专利的专利价值的离散程度，例如，计算方差或标准差；之后，通过一次或多次删除最高和/或最低的专利价值以调整方差或标准差处于预设范围内；最后，利用此时参与计算的专利价值计算专利价值基准值，例如，求均值或将最小值作为专利价值基准值。

需要说明的是，专利价值基准值的计算方式可根据实际情况设置，该专利价值基准值的计算方式以能够体现各有效关联专利的整体专利价值分布为原则，本发明并不对具体的计算方式做出限定。

S103，利用专利价值基准值在关联专利集合的各失效关联专利中筛选出所有潜在可用专利，潜在可用专利具有与有效关联专利相当的专利价值。

在本步骤中，由于各失效关联专利的专利价值以及专利价值基准值均在前述步骤中计算完毕，所以在本步骤中可直接通过数值比对完成潜在可用专利的筛选。

至此，经过专利价值评价、有效专利的专利价值基准值计算，以及基于基准值的失效专利筛选，最终筛选得到与有效专利具有同样价值的失效专利。这些失效专利虽然已经失效，但其记载的技术方案在当前仍然具有技术先进性和市场价值。这些失效专利对于专利持有者而言大概率是可惜的，但对于其他渴望创新的企业而言则是宝贵的，同时其失效的法律状态也免除了专利运营活动所带来的高额人力成本与使用其技术方案带来的侵权风险。

下面对如何利用主题模型实现S101中目标技术主题的自动化选取进行描述，包括以下步骤：

S201，在专利数据库中检索目标主体所持有的所有专利。

本步骤中所描述的目标主体可以是希望开展创新活动的主体，其具体可以是企业、科研院所、高等院校、个人等。本发明并不限定目标主体的具体规模或组织形式。

在专利数据库进行检索，可预先构建出用于检索时使用的检索模板。以专利数据库为智慧芽专利数据库为例，该数据库支持原始申请人（专利权人）、当前申请人（专利权人）等多种检索维度。假设以原始申请人（专利权人）作为检索维度，该智慧芽专利数据库的检索字段为“AN”，那么可预先设定检索模板为“AN：()”。

当获得目标主体（通常可以是名字）时，可将该目标主体填入预先设定的检索模板中以形成完整的检索语句。之后，便可将该检索语句输入检索页面的检索窗口，通过检索网站实现专利检索。这里仍以智慧芽专利数据库为例，假设所需检索的目标主体为“清华大学”，那么将“清华大学”填入“AN：()”，则可得到检索语句“AN：(清华大学)”，该检索语句便是智慧芽专利数据库能够识别的检索语句。

在一个实施例中，通过专利数据库检索得到专利检索结果后，可借助专利数据库的批量下载功能将专利检索结果下载至本地，以方便后续步骤执行。上述流程可通过模拟点击技术实现，在专利数据库呈现的各页面中点击预设的不同按钮，实现专利检索结果的本地下载。由于模拟点击技术已为本领域技术人员所悉知且并非本发明的核心发明内容，因此本发明不再对其进行详细介绍。

需要说明的是，专利文本因公开、授权、复审等环节会造成一件专利存在多种文本，海外多国申请也会存在对应于不同国家的不同版本的专利文本，对于专利文本是否合并同族、按照哪种条件进行合并同族、是否同时呈现申请版本与授权版本等专利检索结果的展示形式，本发明不做限制。

S202，对检索得到的专利进行分词处理并根据预先设定的停用词表删除停用词。

在本步骤执行前，需设定停用词表，以通过停用词表删除文本分词结果中影响自然语言处理效率的无意义词。停用词表通常可包括数字、标点符号、语气词、连接词、专利文本的各部分名称（摘要、权利要求、背景技术、发明名称、说明书、具体实施方式、说明书附图）、常见专利文本的模板内容等。为提高文本处理效率，停用词表的具体内容可与目标主体密切相关。

需要说明的是，停用词表的内容可根据实际情况灵活设定，本发明不对停用词表的具体内容作出限定。

本步骤中的分词处理可通过任意的分词算法实现，例如，基于字符串匹配的分词算法、基于理解的分词算法、基于树的分词算法或基于统计的分词算法。在一个实施例中，为了改善通用分词模型对于目标主体所持有专利的分词效果较差的问题，可使用该目标主体相关的语料对分词模型进行训练，使其能够较好的支持对目标主体所持有专利的分词工作。

S203，将已删除停用词的分词结果输入已训练完成的主题模型，获得多个技术主题并从中选取目标技术主题。

本步骤中所描述的主题模型可以是以非监督学习的方式对文集的隐含语义结构进行聚类的统计模型。例如，该主题模型可以是LDA（Latent Dirichlet Allocation，隐含狄利克雷分布）模型。当然，也可根据实际情况选择LSA（潜语义）模型、pLAS（概率潜在语义分析）模型等。

在执行本步骤之前，需预先完成对主题模型的训练。这里，以LDA模型为例，对训练过程进行简单描述。需要说明的是，LDA模型的训练框架为本领域技术人员所悉知，因此这里仅对主要训练步骤进行描述。

首先，准备LDA模型训练所需的训练语料。这里，可使用目标主体相关的各类文本作为训练语料，以提升LDA模型对目标主体所持有专利的主题识别能力。

之后，利用准备好的训练语料，采用无监督的训练方式对LDA模型进行有限次的训练，在有限次训练完成后得到训练完成的模型。这里的训练次数可以根据模型的实际表现以及模型调试人员的个人经验决定，通常可将模型训练的次数设定为1000次。

至此，完成对主题模型训练过程的描述。下面聚焦于本步骤，对如何使用训练完成的主题模型确定目标技术主题进行描述。

在本步骤中，可将已删除停用词的分词结果输入已训练完成的主题模型，该主题模型将输出数个技术主题以及各技术主题的分布概率。这里仍以主题模型为LDA模型为例进行说明，将上述分词结果输入LDA模型之后，LDA模型将根据预先设定的主题数量输出数个技术主题以及各技术主题的概率分布。这里举一个简单的例子，若将某一高压直流输电设备厂商所持有专利的分词结果输入已设定主题数量为5的LDA模型，那么可输出技术主题及概率可以分别为“直流输电故障处理；0.63”、“直流断路器；0.09”、“直流输电散热冷却；0.06”、“直流输电仿真验证；0.21”与“直流输电绝缘；0.01”。

需要说明的是，对于主题模型而言，其需要预先人工的设定模型所需输出主题的数量。针对LDA模型而言，除可以通过模型调试人员的个人经验以及其对于专利文本的内容、规模等文本属性的理解之上设定主题数量外，还可以通过诸如基于困惑度的主题数量确定方法、基于贝叶斯统计标准的主题数量确定方法、或者是基于狄利克雷过程的HDP（Hierarchical Dirichlet Processes，层次狄利克雷分析）法确定主题数量。

在主题模型输出多个技术主题后，为了有针对性的对某一技术主题开展专利筛选活动，可通过各技术主题的概率从中选择一个最为重要的技术主题作为目标技术主题。这里，仍以上述的LDA模型为例，在LDA模型输出技术主题及概率分别为“直流输电故障处理；0.63”、“直流断路器；0.09”、“直流输电散热冷却；0.06”、“直流输电仿真验证；0.21”与“直流输电绝缘；0.01”后，可通过比对各概率的大小进而选择“直流输电故障处理”作为目标技术主题。

至此便完成了对目标技术主题的确定流程。

下面描述上述S101如何生成与目标技术主题相对应的检索关键词集合，包含以下步骤：

S301，在预先生成的语料库中对目标技术主题进行语义匹配，提取语义相似度大于预设阈值的相关词并将其确定为检索关键词。

在本步骤执行前，需准备语料库以用于后续检索关键词的提取，该语料库可以与目标技术主题相关，包括书籍、期刊、专利等等。为在后续能够计算不同词之间的相似度，还需将语料库中的词语转为数学表达。作为一种实现方式，可以先进行分词处理与停用词删除处理，之后利用语料库训练Word2vec模型，借助完成训练的Word2vec模型实现词至词向量的转换。当然，此处也可根据实际情况选择其他的词向量模型实现词向量转换，本发明对此不做限定。

在本步骤执行过程中，语义匹配可通过词向量相似度计算实现。这里仍以Word2vec模型为例，可通过Word2vec模型将目标技术主题转换为词向量，之后逐一计算其与语料库中各词语的词向量之间的相似度。不同词向量之间的相似度计算可以通过多种算法实现，例如，Jaccard相似度计算方法、余弦相似度计算方法等，本发明对此不做限定。

本步骤中用于筛选检索关键词的预设阈值可根据实际情况设置，设置预设阈值的目的在于筛选出与目标技术主题语义接近的检索关键词，因此该预设阈值的设置能够实现该目的即可，本发明不对预设阈值的具体数值做出限定。

S302，识别不同检索关键词之间的上下位关系，并据此将所有检索关键词划分为上位关键词集合与下位关键词集合。

在执行本步骤前，可预先对前述步骤S301中描述的语料库进行预处理。其中，该预处理包括基于语义向量化的处理或基于模板分类的处理。其中，基于语义向量化的处理具体是：获取语料库中每个词语的语义向量，将各词语的语义向量输入二分类模型，确定输入的两个词语是否满足上下位关系。而基于模板分类的方法主要是从语料库中抽取上位词，具体是识别语料库中的名词短语，再利用语料库的背景信息，确定语料库中任意两个名词短语是否满足上下位关系。在完成对于语料库中词语的上下位关系识别后，可在本步骤执行时用于确定检索关键词的上下位关系。

需要说明的是，本步骤并不限定具体采取何种算法实现检索关键词的上下位关系识别，实施时可具体根据实际情况决定。

在识别检索关键词集合中不同检索关键词之间的上下位关系时，由于语料库中各词语间的上下位关系已预先确定，因此在本步骤中可直接的确定不同检索关键词之间的上下位关系。

本步骤的关键并不在于对上下文关系的识别算法进行改进，而是借助上下位关系的识别来满足不同创新方式的需求。随着技术发展，跨领域融合创新日益增多。为了能够更加广泛的筛选出更多的潜在可用专利，本发明设计了两种专利筛选思路。第一种专利筛选思路，是在目标技术主题相对应的专利领域内进行筛选，以筛选出与目标技术关系密切的具有创新前景的潜在可用专利。第二种专利筛选思路，则是在目标技术主题相对应的专利领域以外的其他技术领域进行筛选，以筛选出与目标技术有一定差距的具有跨领域融合创新前景的潜在可用专利。

为实现上述两种专利筛选思路，发明人在广泛的分析专利文本后发现，随着技术的不断发展，该项技术下相关专利的创新点逐渐细化，各类用词也变得更为下位。对应于上述两种专利筛选思路，在筛选创新前景的潜在可用专利时，应聚焦于目标技术主题对应的技术领域内，采用更为下位的词语进行检索以检索该领域内相对先进、深入的技术；而在筛选具有跨领域融合创新前景的潜在可用专利时，则应在其他技术领域内，采用更为上位的词语进行检索以检索相对基础、与目标技术主题存在差异但并非专用于其他技术领域的技术。

以上两种专利筛选思路具体通过以下步骤实现，包括以下步骤：

S401，确定目标技术主题对应的专利分类号。

在本步骤中，可借助文本相似度确定目标技术主题对应的专利分类号。

在一个实施例中，可通过自然语言处理模型将目标技术主题以及各专利分类号对应的分类号解释转换为词向量，并通过计算词向量之间的相似度确定专利分类号。在另一个实施例中，也可通过文本匹配的方式，在各分类号的解释中检索目标技术主题并确定目标技术主题对应的专利分类号。

需要说明的是，专利分类号的类别、版本、以及层级均可根据实际情况决定，本发明不对其进行限定。

S402，在专利分类号对应的专利范围内检索下位关键词集合，得到第一类关联专利集合。

由于专利分类号可以直接的限定专利检索范围，因此可以通过在检索语句中增加专利分类号的方式，实现对下位关键词集合的检索。具体的检索方式可以采用前述的检索模板实现，这里不再赘述。

S403，在专利分类号对应的专利范围之外检索上位关键词集合，得到第二类关联专利集合。

与步骤402相似的，由于专利分类号可以直接的限定专利检索范围，因此可以通过在检索语句中增加专利分类号的方式，实现对下位关键词集合的检索。值得说明的是，检索某一专利分类号以外的其他专利分类号，通常采用“NOT”这一检索字段。

至此，完成对不同技术领域内关联专利的检索。

下面对专利价值的具体评价方法进行描述，包括以下步骤：

S501，针对关联专利集合内每一关联专利，在专利数据库中检索与该关联专利相关的N个参评专利。

当前的专利数据库在以专利作为检索关键词进行检索时，专利数据库会根据专利文本内容检索与之相关的其他专利作为检索结果。这里以智慧芽为例，若希望实现以专利作为检索关键词进行检索，可以选择“语义搜索”并将该专利的“申请号”或者“公开号”输入“文本输入窗口”，之后的检索便是以该专利作为检索关键词进行的检索。

需要说明的是，由于不同的专利数据库的检索策略存在差异，以及在具体实施时对于专利价值评价流程的处理速度要求等等实际情况，本步骤中的N可根据实际情况灵活设定。

S502，根据各参评专利与该关联专利的相关性计算技术维度专利价值。

本步骤中所描述的相关性指各参评专利与关联专利在文本内容层面的相关性。在一个实施例中，这一数值可由专利数据库在检索后自动的给出。这里仍以智慧芽为例，按照S501的方式完成检索后，智慧芽会自动给出每一检索得到的专利与该作为检索关键词的专利之间的相关性，该相关性以百分数体现，例如55%意味着两件专利在文本内容层面有55%的相关。在另一个实施例中，若专利检索网站不支持该项功能，则可采用文本相似度计算方法计算专利间相关性，本发明并不限定计算该文本相似度的算法。

作为一个实现方式，技术维度专利价值可以通过计算各参评专利与该关联专利的相关性的均值获得。作为另一种实现方式，技术维度专利价值可以通过以下步骤计算得到：

S601，根据该关联专利的申请日将N个参评专利划分为第一类参评专利和第二类参评专利。

本步骤的目的在于区分关联专利被发明之前申请的专利、以及在关联专利被发明之后申请的专利。通过区分这两类专利，可以用于评价关联专利在长期的技术发展过程中是否对技术产生了引领作用。具体而言，若在关联专利被发明之前申请的专利与关联专利的相关性较低、但之后申请的专利与关联专利的相关性较高，则说明关联专利对后续的专利起到了引领作用，其技术先进性较好。若相反，则说明关联专利其实是早前某一项具有引领作用专利的后续分支专利，那么其技术先进性则较差。

需要说明的是，本步骤中所描述的第一类参评专利若是在关联专利申请日前申请的专利，那么第二类参评专利则是在关联专利申请日后申请的专利。本步骤中所描述的第一类参评专利若是在关联专利申请日后申请的专利，那么第二类参评专利则是在关联专利申请日前申请的专利。

S602，分别统计第一类参评专利与该关联专利的第一相关性均值，以及第二类参评专利与该关联专利的第二相关性均值。

如前所述，相关性可通过专利数据库直接的获得或是基于文本相似度计算获得，本步骤可基于相关性计算已完成类别划分的两类参评专利的相关性均值。

值得说明的是，由于有效专利相比于失效专利而言，在整体上的确能够更好的体现出技术在当前的创新性。因此，作为一种实现方式，在本步骤执行前，可进一步对第一类参评专利和第二类参评专利进行过滤，从中过滤掉失效专利，仅保留有效专利参与技术维度专利价值评价。

S603，根据第一相关性均值与第二相关性均值计算技术维度专利价值。

在一个实施例中，若第一相关性均值对应于在关联专利申请日后申请的参评专利，第二相关性均值对应于在关联专利申请日前申请的参评专利，那么可计算第一相关性均值与第二相关性均值的商，将其作为技术维度专利价值。举一个简单的例子，假设某一关联专利的第一相关性均值为0.78，第二相关性均值为0.32，那么计算该关联专利的技术维度专利价值为0.78÷0.32=2.4375。

需要说明的是，本步骤中的技术维度专利价值所表征的是关联专利与其申请日前后两类专利的相关性变化情况，因此可根据实际情况选择具体的计算方法，只要该计算方式能够体现出上述变化情况即可，本发明并不限定某一具体的计算方式。

S503，根据各参评专利的申请人类型计算市场维度专利价值。

在某一项技术的发展过程中，起始的研究通常由高校或科研院所发起，并随着技术的市场化逐步转移至企业，由企业推出产品并持续改进。因此，本发明选择根据申请人类型的变化趋势评价专利的市场维度专利价值。

作为一种实现方式，在目前的专利数据库中，通常预先已将专利的申请人类型进行了分类处理。具体地，专利数据库通常将专利申请人的类型划分为高校、研究所、公司、政府机构、个人等，因此根据在专利数据库中查询参评专利的申请人类型即可获得该数据。作为另一种实现方式，可通过语义模型识别专利文本中的申请人信息，并根据申请人信息中是否存在“公司”字样判断该专利是否为企业类型、根据申请人信息中是否存在“学校”或者“研究院”等字样判断该专利是否为高校或研究所类型。

上面介绍了如何获得参评专利的申请人类型，下面将详细介绍如何使用申请人类型计算市场维度专利价值。具体可以包括以下步骤：

S701，筛选出在距离当前日期M年以内申请的参评专利。

为了避免将过早、过多的专利纳入市场维度专利价值计算，本发明选择采用使用时间作为限制手段，仅选择将M年以内申请的参评专利纳入评价范围。本步骤中M的具体数值可根据实际情况设定，本发明对此不做限定。

S702，统计M年内每一年参评专利中企业申请人类型的比例值。

如前所述，存在多种方式获得参评专利的申请人类型。在此基础上，可统计每一年的参评专利中企业申请人的比例值。例如，某一年中的参评专利为300件，其中140件专利的申请人中存在企业申请人，那么该比例值为140/300=46.7%。

S703，根据计算得到的各年比例值计算市场维度专利价值。

在本步骤中，可以通过计算各年比例值的变化趋势得到市场维度专利价值。

作为一个实施例，可以首先分别计算相邻年份中下一年的比例值与上一年的比例值之间的差值，之后计算各年差值的平均值作为调整值，该调整值用于表征各年比例值的整体变化趋势。举一个简单的例子，若已经计算得到3年的比例值依次为0.6、0.7、0.8，那么分别计算相邻年份的比例值差值为0.7-0.6=0.1、0.8-0.7=0.1，求均值后得到（0.1+0.1）/2=0.1。

之后，再计算各年比例值的均值，作为市场维度专利价值的基准值。举一个简单的例子，若已经计算得到3年的比例值依次为0.6、0.7、0.8，那么各年比例值的均值为（0.6+0.7+0.8）/3=0.7。

最后，使用市场维度专利价值的基准值与调整值综合计算出市场维度专利价值。具体地，市场维度专利价值=基准值（1+调整值）。举一个简单的例子，若基准值为0.7，调整值为0.1，那么市场维度专利价值为0.7（0.1+1）=0.77。

S504，根据技术维度专利价值与市场维度专利价值计算专利价值。

在一个实施例中，可针对技术维度专利价值与市场维度专利价值进行求和，将求和结果作为专利价值。在另一个实施例中，可先为技术维度专利价值与市场维度专利价值分配权重，之后通过加权求和的方式计算专利价值。

需要说明的是，最终计算得到的专利价值用于整体的表征技术维度专利价值与市场维度专利价值，而具体的计算方式则根据实际情况设置，本发明并不对其进行限定。

虽然失效专利自身已经不具有独占权，但是存在着其相关专利仍处于有效转态，进而导致使用该失效专利仍存在侵权行为的情况。因此，为降低使用失效专利带来的侵权风险，本发明在筛选得到潜在可用专利后，根据该专利的申请人情况对该专利的风险进行了判断，具体可以通过计算每一潜在可用专利的侵权风险系数，并据此筛选出适合于参与目标技术主题相关创新活动的潜在可用专利。

如前所述，潜在可用专利是在当前仍然具有创新性，且具有市场价值的专利，使用这些专利相比于使用有效专利而言，的确降低了侵权风险，但仍然存在着侵犯其他专利权的风险。针对这一问题，本发明选择在一定程度上规避同一申请人的其他专利造成的专利风险。

在一个实施例中，侵权风险系数可以通过以下步骤计算：

S701，针对每一所述潜在可用专利，检索该潜在可用专利的申请人所持有的所有有效专利。

为避免同一申请人在申请潜在可用专利前后申请了与之相关的其他专利、且这些专利仍然处于有效状态，需要对该申请人的有效专利进行检索。

S702，在检索得到的所有有效专利中筛选与该潜在可用专利相似度大于预设阈值的所有专利。

本步骤中，通过识别与潜在可用专利相似度大于预设阈值的所有专利，可以识别出因使用潜在可用专利而带来侵权风险的专利。

S703，根据筛选得到的专利的数量确定该潜在可用专利的侵权风险系数。

本步骤中，将统计步骤702筛选出的专利数量，其专利数量越大，则意味着潜在的侵权风险也就越。在一个实施例中，可将步骤702筛选得到的专利数量作为侵权风险系数。

至此，完成对侵权风险系数的描述。

在一个实施例中，计算得到侵权风险系数后，可将其与预设的侵权风险系数阈值进行比较，据此筛选出侵权风险系数小于阈值的低风险可用专利。这里的侵权风险系数阈值可根据实际情况设置，本发明并不对其进行限定。

与前述一种专利筛选方法相对应，本说明书还提供了一种专利筛选装置。

参见图2所示，该专利筛选装置包括：检索单元10、价值计算单元20和筛选单元30。

检索单元10，用于生成与目标技术主题相对应的检索关键词集合，并据此在专利数据库中检索得到关联专利集合，所述关联专利集合内包含失效关联专利与有效关联专利；

价值计算单元20，用于计算所述关联专利集合内每一关联专利的专利价值，并据此统计各有效关联专利的专利价值基准值，所述专利价值基准值用于表征该集合内所有有效关联专利的专利价值分布情况；

筛选单元30，用于利用所述专利价值基准值在所述关联专利集合的各失效关联专利中筛选出所有潜在可用专利，潜在可用专利具有与有效关联专利相当的专利价值。

在一个实施例中，检索单元10在生成与目标技术主题相对应的关键词集合包括：

在预先生成的语料库中对目标技术主题进行语义匹配，提取语义相似度大于预设阈值的相关词并将其确定为检索关键词；

识别不同检索关键词之间的上下位关系，并据此将所有检索关键词划分为上位关键词集合与下位关键词集合。

在一个实施例中，检索单元10在专利数据库中检索得到关联专利集合包括：

确定目标技术主题对应的专利分类号；

在专利分类号对应的专利范围内检索下位关键词集合，得到第一类关联专利集合；

在专利分类号对应的专利范围之外检索上位关键词集合，得到第二类关联专利集合。

在一个实施例中，价值计算单元20计算关联专利集合内每一关联专利的专利价值包括：

针对关联专利集合内每一关联专利，在专利数据库中检索与该关联专利相关的N个参评专利；

根据各参评专利与该关联专利的相关性计算技术维度专利价值；

根据各参评专利的申请人类型计算市场维度专利价值；

根据技术维度专利价值与市场维度专利价值计算专利价值。

在一个实施例中，价值计算单元20根据各参评专利与该关联专利的相关性计算技术维度专利价值包括：

根据该关联专利的申请日将N个参评专利划分为第一类参评专利和第二类参评专利；

分别统计第一类参评专利与该关联专利的第一相关性均值，以及第二类参评专利与该关联专利的第二相关性均值；

根据第一相关性均值与第二相关性均值计算技术维度专利价值。

在一个实施例中，价值计算单元20根据各参评专利的申请人类型计算市场维度专利价值包括：

筛选出在距离当前日期M年以内申请的参评专利；

统计M年内每一年参评专利中企业申请人类型的比例值；

根据计算得到的各年比例值计算市场维度专利价值。

在一个实施例中，价值计算单元20统计各有效关联专利的专利价值基准值包括：

计算所有有效关联专利的专利价值均值；

将计算得到的专利价值均值作为专利价值基准值。

在一个实施例中，筛选单元30还用于计算每一潜在可用专利的侵权风险系数，并据此筛选出低风险可用专利。

在一个实施例中，筛选单元30计算每一潜在可用专利的侵权风险系数包括：

针对每一潜在可用专利，检索该潜在可用专利的申请人所持有的所有有效专利；

在检索得到的所有有效专利中筛选与该潜在可用专利相似度大于预设阈值的所有专利；

根据筛选得到的专利的数量确定该潜在可用专利的侵权风险系数。

上述设备中各个部件的功能和作用的实现过程具体详见上述专利筛选方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书实施例还提供一种电子设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述的专利筛选方法。该方法至少包括：

图3示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1050包括一通路，在设备的各个组件（例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述的专利筛选方法。该方法至少包括：

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体（transitory media），如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种专利筛选方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述生成与目标技术主题相对应的检索关键词集合包括：

在预先生成的语料库中对所述目标技术主题进行语义匹配，提取语义相似度大于预设阈值的相关词并将其确定为检索关键词；

3.根据权利要求2所述的方法，其特征在于，所述在专利数据库中检索得到关联专利集合包括：

确定所述目标技术主题对应的专利分类号；

在所述专利分类号对应的专利范围内检索所述下位关键词集合，得到第一类关联专利集合；

在所述专利分类号对应的专利范围之外检索所述上位关键词集合，得到第二类关联专利集合。

4.根据权利要求1所述的方法，其特征在于，所述计算所述关联专利集合内每一关联专利的专利价值包括：

针对所述关联专利集合内每一关联专利，在所述专利数据库中检索与该关联专利相关的N个参评专利；

根据各参评专利的申请人类型计算市场维度专利价值；

根据所述技术维度专利价值与所述市场维度专利价值计算专利价值。

5.根据权利要求4所述的方法，其特征在于，所述根据各参评专利与该关联专利的相关性计算技术维度专利价值包括：

根据该关联专利的申请日将N个所述参评专利划分为第一类参评专利和第二类参评专利；

根据所述第一相关性均值与所述第二相关性均值计算所述技术维度专利价值。

6.根据权利要求4所述的方法，其特征在于，所述根据各参评专利的申请人类型计算市场维度专利价值包括：

筛选出在距离当前日期M年以内申请的参评专利；

统计M年内每一年参评专利中企业申请人类型的比例值；

根据计算得到的各年比例值计算市场维度专利价值。

7.根据权利要求1所述的方法，其特征在于，所述统计各有效关联专利的专利价值基准值包括：

计算所有有效关联专利的专利价值均值；

将计算得到的专利价值均值作为所述专利价值基准值。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

计算每一所述潜在可用专利的侵权风险系数，并据此筛选出低风险可用专利。

9.根据权利要求8所述的方法，其特征在于，所述计算每一所述潜在可用专利的侵权风险系数包括：

针对每一所述潜在可用专利，检索该潜在可用专利的申请人所持有的所有有效专利；

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至9任一项所述的方法。