CN107577800A

CN107577800A - 一种基于模糊集合模型的大数据专利检索方法

Info

Publication number: CN107577800A
Application number: CN201710856760.6A
Authority: CN
Inventors: 盛时永
Original assignee: Hefei Hownet Intellectual Property Operation Co Ltd
Current assignee: Hefei Hownet Intellectual Property Operation Co Ltd
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2018-01-12

Abstract

本发明公开了一种基于模糊集合模型的大数据专利检索方法，属于大数据专利检索技术领域。该方法基于模糊集合检索模型，对传统的布尔检索模型进行改进，用户利用模糊索引和精确索引提交专利检索词，将用户检索词的布尔表达式转化为等价的析取范式形式：同时根据析取范式排除一定不相关的文档，确定可能相关文档集合，然后利用经典数据库中的材料，确定每个析取范式对应的模糊文档集合，并计算出隶属于模糊文档集合的隶属值，最后进行用户检索匹配函数和匹配值计算，用户根据呈现的结果，选择所需专利，或者进行二次检索过滤，再次重复上述过程。该方法能够避免传统专利检索方法中检索式构造的非友善性和的二值匹配相关性。

Description

一种基于模糊集合模型的大数据专利检索方法

技术领域

本发明涉及一种大数据专利检索方法，属于专利检索技术领域，具体涉及一种基于模糊集合模型的大数据专利检索方法。

背景技术

20世纪80年代以来，随着世界经济的发展和新技术革命的到来，专利文献作为一种既可以体现科技创新力，又可以保护科研成果不受侵犯的科技法律文献，其重要性越来越受到重视。据世界知识产权组织(World Intellectual Property Organization)报道，专利文献包含全世界每年90％～95％的最新科研成果，其中有70％左右的发明技术从未在其他非专利文献上发表。专利文献指导技术创新，将可以节约40％的研究经费和60％的研究时间，专利已经成为了企业科技创新和投资者商业战略决策的重要科技参考文献。

中国专利数据截止到2013年底达到了600万条，超过了美国和日本，跃居世界第一。面对如此大量的专利信息，用户获取有价值信息的代价也越来越高，正是这种需求导致了专利数据各种研究工作的开展以及各种商业专利服务平台的出现。

相对传统文本而言，专利文献有其特殊性，主要表现在5个方面：

(1)复杂性。专利文献记载着技术解决方案，确定了专利权保护范围，包含很多专业性和细节性的说明，特别是专利中描述技术细节和组成结构的句子表达非常复杂，涉及多种并列结构、依存结构和嵌套结构，在做句法语义分析时也比普通文本遇到更多的挑战。

(2)规范化。专利文献相对网页有更规整的结构化信息，一是它具有统一的分类，二是专利权利说明书遵循一定的写作规范，有效地利用这些规范化信息将有助于对专利的分析。

(3)抽象性。专利作为一种技术上受保护的文献，专利发明人为了垄断技术，会使用更加抽象的上位词表达保护的覆盖范围，这些词包含各种技术术语甚至是自定义词汇，从而增加了词法处理的难度。

(4)唯一性。专利是一种独一无二的信息资源，相对于网页，专利间的文本重叠度往往很小，因此在计算专利相似度时，基于词语重叠的方法并不适用。

(5)多主题多语言。一篇专利文献经常包括多个主题，而且不同国家采用不同的语言描述专利，所以专利检索更加注重跨语言多主题的检索。

对比文件1(一种专利检索的***和方法，CN201410787225.6)公开了一种专利检索的***和方法，专利检索的***包括用户信息管理模块、检索类型选择模块、检索输入模块、检索配对模块和检索输出模块,专利检索的方法包括：S1,从简单检索、高级检索和表达式检索中选择适合本次检索的检索方式,并且进入该检索的窗口；S2,在选择进入的检索方式的窗口中输入检索词,点击检索窗口进入显示窗口；S3,在检索窗口选择专利呈现的形式,并弹出呈现窗口,或者选择二次检索过滤后再次呈现；S4,选择对专利进行保存或则结束进程。该发明中的专利检索主要从功能性模块出发，并没有进行实质性的提出高效率的检索方法。

针对以上缺点，有必要设计出一种新的专利检索方法，避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性，提高专利检索结果的匹配度和关联度。

发明内容

(一)要解决的技术问题

为了解决现有技术存在的上述问题，本发明提供了一种基于向量空间的专利检索方法，该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性，提高专利检索结果的匹配度和关联度。

(二)技术方案

本发明提出了一种基于模糊集合模型的大数据专利检索方法，所述方法包括如下步骤：

步骤S1：用户结合模糊索引和精确索引提交专利检索词，将用户检索词的布尔表达式转化为等价的析取范式形式：

q＝q₁Vq₂V……Vq_t

其中，q为析取范式，t为含有的合取子项的个数，V代表合取子项的并集；

步骤S2：根据析取范式q，排除一定不相关的专利文档，确定可能相关专利文档集合D；

步骤S3：利用经典专利数据库中的材料，确定每个析取范式q_i对应的模糊专利文档集合D_i；

步骤S4：遍历集合D中的专利文档，对数据库中专利文档d_j计算出d_j隶属于模糊专利文档集合D_i的隶属值ω_ij；

步骤S5：对专利数据库中文档d_j和析取范式q定义用户检索匹配函数，并输出匹配值；

步骤S6：通过匹配值的大小排序，向用户输出前N个专利文档结果；

步骤S7：用户根据呈现的结果，选择所需专利文档，或者进行二次检索过滤，再次重复上述过程。

优选的，所述步骤S3中所述经典数据库为国家知识产权局专利数据库、国际专利数据库、美国专利数据库、日本专利数据库；并可根据专利类别进一步限定为发明专利数据库、发明专利数据库和外观设计专利数据库。

优选的，所述步骤S4中所述隶属值ω_ij计算方法如下：

首先定义索引词关联矩阵：以索引词集合K中的元素作为行和列，索引词之间语义关系作为元素值得一个词矩阵；用C表示关联矩阵，矩阵元素c_ij表示索引词k_i、k_j之间的关联因子，其值用如下公式计算：

c_ij＝n_ij/(n_i+n_j-n_ij)

其中，n_i、n_j分别表是专利数据库中含有检索词k_i和k_j的专利文档数，n_ij表示数据库中同时含有索引词k_i、k_j的文档数；之后，对于专利数据库中文档d_j，其隶属于模糊专利文档集合D_i的隶属值可以通过如下计算：

ω_ij＝1-∏(1-c_ij) (k_j∈d_j)

其中，专利文档d_j隶属于模糊专利文档集合D_i的程度，由d_j中含有的索引词k_i和索引词k_j的关联强度决定；若专利文档d_j中至少有一个索引词k_i与k_j为强相关(即c_ij的值接近1)，通过ω_ij的表达式计算得到ω_ij的值也接近1；反之，若专利文档d_j中所有的索引词与k_i都没有强关联(c_ij的值接近0)，经过同样的表达式计算得到ω_ij的值接近于0。

优选的，所述步骤S5中所述用户检索匹配函数计算公式如下：

其中ω_ij是d_j隶属于q_i所对应的模糊集合的隶属值,t为析取范式q中含有的合取子项的个数，sum(q,dj)代表匹配函数。

优选的，所述步骤S7中所述二次检索过滤具体指重复步骤S2～S6，选出主题专利文档。

(三)有益效果

从上述技术方案可以看出，本发明提出的基于向量空间的专利检索方法具有以下有益效果：

1、该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性。

2、该方法通过相似度计算函数提高了专利检索结果的匹配度和关联度。

附图说明

图1显示了本发明优选实施例的基于模糊集合模型的大数据专利检索方法流程图；

图2显示了本发明提出的基于模糊集合模型的智能化构件选取方法原理框图。

具体实施方式

下面结合附图，对本发明做的实施例作详细说明：本实施例在以本发明技术方案前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

图1显示了本发明提出的基于模糊集合模型的大数据专利检索方法原理框图。

如图1所示，本发明提出的基于模糊集合模型的大数据专利检索方法主要包括五部分。

用户首先从模糊索引或者精确索引中选择合适的检索方式，输入用户检索词。检索***接收用户检索词后，将其转化为析取范式形式q，按照专利要求书中的步骤S1～S7中所述内容计算出专利文献的匹配值。所述步骤具体为

q＝q₁Vq₂V……Vq_t

其中，q为析取范式，t为含有的合取子项的个数，∨代表合取子项的并集；

其中ω_ij＝1-∏(1-c_ij) (k_j∈d_j)，匹配函数为

本发明具体实施例中，通过对匹配值的大小排序，从大到小向用户输出这前10个专利文档结果。用户根据输出的专利文档结果，可以调整输出专利文档的数目，所述专利文档的数目分别为10、20和50。若没有出现用户所需专利文档，用户可以调整用户索引词，进行二次检索再次过滤呈现出新的专利文档。最终用户根据呈现的专利文档选择对专利文档进行保存或者结束整个过程。

如图2所示，本发明提出的基于模糊集合模型的智能化构件选取方法包括七部分，分别是查询、检索、管理、评价、决策、构件和用例库。查询子***和检索子***主要负责给用户提供个性友好的查询手段以及快速正确的检索技术,所述个性友好查询手段以及正确检索技术是指超文本链接浏览和关键字描述检索技术。管理子***Ⅰ、Ⅱ主要负责构件库数据日常的管理与维护工作，所述日常管理和维护工作是指用户授权验证、构件数据增减等.评价子***主要根据各构件日常的检索、查询的情况与领域专家的打分、并结合构件评价的定量模型较适时地统计各构件的评价因数,以协助构件库的管理与查询。用例库主要将构件库中检索出的可重用构件在某个应用中的重用情况及其设计属性和规约看作一个用例，存入用例库；决策子***主要作用是处理在用例库中由检索子***提供的候选用例，决策子***根据候选用例的重用历史，向用户提供适合当前应用环境的构件及构件重用决策的可信度。如无合适用例，检索子***再到构件库中检索。在决策子***中，基于本发明提出的一种新的模糊集合模型的智能化重用构件选取方法，将构件选取看成一个决策分析问题，把模糊集合作为决策选择的基础，从候选构件在不同应用中的重用历史来决定它在当前应用中潜在的重用程度。

综上所述，本发明提出了一种基于模糊集合模型的大数据专利检索方法，属于专利检索技术领域。该方法基于模糊集合检索模型，对传统的布尔检索模型进行改进，用户利用模糊索引和精确索引提交专利检索词，将用户检索词的布尔表达式转化为等价的析取范式形式：同时根据析取范式排除一定不相关的文档，确定可能相关文档集合，然后利用经典数据库中的材料，确定每个析取范式对应的模糊文档集合，并计算出隶属于模糊文档集合的隶属值，最后进行用户检索匹配函数和匹配值计算，用户根据呈现的结果，选择所需专利，或者进行二次检索过滤，再次重复上述过程。该方法能够避免传统专利检索方法中检索式构造的非友善性和的二值匹配相关性，提高了专利检索结果的匹配度和关联度。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于模糊集合模型的大数据专利检索方法，其特征在于，所述方法包括如下步骤：

q＝q₁Vq₂V……Vq_t

步骤S4：遍历集合D中的专利文档，对数据库中专利文档d_j计算出d_j隶属于模糊专利文档集合D_i的隶属值ωi_j；

2.根据权利要求1所述的一种基于模糊集合模型的大数据专利检索方法，其特征在于，步骤S3中所述经典数据库为国家知识产权局专利数据库、国际专利数据库、美国专利数据库、日本专利数据库；并可根据专利类别进一步限定为发明专利数据库、发明专利数据库和外观设计专利数据库。

3.根据权利要求1所述的一种基于模糊集合模型的大数据专利检索方法，其特征在于，步骤S4中所述隶属值ω_ij计算方法如下：

c_ij＝n_ij/(n_i+n_j-n_ij)

ω_ij＝1-∏(1-c_ij)(k_j∈d_j)

4.根据权利要求1所述的一种基于模糊集合模型的大数据专利检索方法，其特征在于，步骤S5中所述用户检索匹配函数计算公式如下：

<mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>q</mi> <mo>,</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>t</mi> </munderover> <msub> <mi>&omega;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>

5.根据权利要求1所述的一种基于模糊集合模型的大数据专利检索方法，其特征在于，步骤S7中所述二次检索过滤具体指重复步骤S2～S6，选出主题专利文档。