CN107577800A - 一种基于模糊集合模型的大数据专利检索方法 - Google Patents

一种基于模糊集合模型的大数据专利检索方法 Download PDF

Info

Publication number
CN107577800A
CN107577800A CN201710856760.6A CN201710856760A CN107577800A CN 107577800 A CN107577800 A CN 107577800A CN 201710856760 A CN201710856760 A CN 201710856760A CN 107577800 A CN107577800 A CN 107577800A
Authority
CN
China
Prior art keywords
database
fuzzy
user
index
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710856760.6A
Other languages
English (en)
Inventor
盛时永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Hownet Intellectual Property Operation Co Ltd
Original Assignee
Hefei Hownet Intellectual Property Operation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Hownet Intellectual Property Operation Co Ltd filed Critical Hefei Hownet Intellectual Property Operation Co Ltd
Priority to CN201710856760.6A priority Critical patent/CN107577800A/zh
Publication of CN107577800A publication Critical patent/CN107577800A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于模糊集合模型的大数据专利检索方法,属于大数据专利检索技术领域。该方法基于模糊集合检索模型,对传统的布尔检索模型进行改进,用户利用模糊索引和精确索引提交专利检索词,将用户检索词的布尔表达式转化为等价的析取范式形式:同时根据析取范式排除一定不相关的文档,确定可能相关文档集合,然后利用经典数据库中的材料,确定每个析取范式对应的模糊文档集合,并计算出隶属于模糊文档集合的隶属值,最后进行用户检索匹配函数和匹配值计算,用户根据呈现的结果,选择所需专利,或者进行二次检索过滤,再次重复上述过程。该方法能够避免传统专利检索方法中检索式构造的非友善性和的二值匹配相关性。

Description

一种基于模糊集合模型的大数据专利检索方法
技术领域
本发明涉及一种大数据专利检索方法,属于专利检索技术领域,具体涉及一种基于模糊集合模型的大数据专利检索方法。
背景技术
20世纪80年代以来,随着世界经济的发展和新技术革命的到来,专利文献作为一种既可以体现科技创新力,又可以保护科研成果不受侵犯的科技法律文献,其重要性越来越受到重视。据世界知识产权组织(World Intellectual Property Organization)报道,专利文献包含全世界每年90%~95%的最新科研成果,其中有70%左右的发明技术从未在其他非专利文献上发表。专利文献指导技术创新,将可以节约40%的研究经费和60%的研究时间,专利已经成为了企业科技创新和投资者商业战略决策的重要科技参考文献。
中国专利数据截止到2013年底达到了600万条,超过了美国和日本,跃居世界第一。面对如此大量的专利信息,用户获取有价值信息的代价也越来越高,正是这种需求导致了专利数据各种研究工作的开展以及各种商业专利服务平台的出现。
相对传统文本而言,专利文献有其特殊性,主要表现在5个方面:
(1)复杂性。专利文献记载着技术解决方案,确定了专利权保护范围,包含很多专业性和细节性的说明,特别是专利中描述技术细节和组成结构的句子表达非常复杂,涉及多种并列结构、依存结构和嵌套结构,在做句法语义分析时也比普通文本遇到更多的挑战。
(2)规范化。专利文献相对网页有更规整的结构化信息,一是它具有统一的分类,二是专利权利说明书遵循一定的写作规范,有效地利用这些规范化信息将有助于对专利的分析。
(3)抽象性。专利作为一种技术上受保护的文献,专利发明人为了垄断技术,会使用更加抽象的上位词表达保护的覆盖范围,这些词包含各种技术术语甚至是自定义词汇,从而增加了词法处理的难度。
(4)唯一性。专利是一种独一无二的信息资源,相对于网页,专利间的文本重叠度往往很小,因此在计算专利相似度时,基于词语重叠的方法并不适用。
(5)多主题多语言。一篇专利文献经常包括多个主题,而且不同国家采用不同的语言描述专利,所以专利检索更加注重跨语言多主题的检索。
对比文件1(一种专利检索的***和方法,CN201410787225.6)公开了一种专利检索的***和方法,专利检索的***包括用户信息管理模块、检索类型选择模块、检索输入模块、检索配对模块和检索输出模块,专利检索的方法包括:S1,从简单检索、高级检索和表达式检索中选择适合本次检索的检索方式,并且进入该检索的窗口;S2,在选择进入的检索方式的窗口中输入检索词,点击检索窗口进入显示窗口;S3,在检索窗口选择专利呈现的形式,并弹出呈现窗口,或者选择二次检索过滤后再次呈现;S4,选择对专利进行保存或则结束进程。该发明中的专利检索主要从功能性模块出发,并没有进行实质性的提出高效率的检索方法。
针对以上缺点,有必要设计出一种新的专利检索方法,避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性,提高专利检索结果的匹配度和关联度。
发明内容
(一)要解决的技术问题
为了解决现有技术存在的上述问题,本发明提供了一种基于向量空间的专利检索方法,该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性,提高专利检索结果的匹配度和关联度。
(二)技术方案
本发明提出了一种基于模糊集合模型的大数据专利检索方法,所述方法包括如下步骤:
步骤S1:用户结合模糊索引和精确索引提交专利检索词,将用户检索词的布尔表达式转化为等价的析取范式形式:
q=q1Vq2V……Vqt
其中,q为析取范式,t为含有的合取子项的个数,V代表合取子项的并集;
步骤S2:根据析取范式q,排除一定不相关的专利文档,确定可能相关专利文档集合D;
步骤S3:利用经典专利数据库中的材料,确定每个析取范式qi对应的模糊专利文档集合Di
步骤S4:遍历集合D中的专利文档,对数据库中专利文档dj计算出dj隶属于模糊专利文档集合Di的隶属值ωij
步骤S5:对专利数据库中文档dj和析取范式q定义用户检索匹配函数,并输出匹配值;
步骤S6:通过匹配值的大小排序,向用户输出前N个专利文档结果;
步骤S7:用户根据呈现的结果,选择所需专利文档,或者进行二次检索过滤,再次重复上述过程。
优选的,所述步骤S3中所述经典数据库为国家知识产权局专利数据库、国际专利数据库、美国专利数据库、日本专利数据库;并可根据专利类别进一步限定为发明专利数据库、发明专利数据库和外观设计专利数据库。
优选的,所述步骤S4中所述隶属值ωij计算方法如下:
首先定义索引词关联矩阵:以索引词集合K中的元素作为行和列,索引词之间语义关系作为元素值得一个词矩阵;用C表示关联矩阵,矩阵元素cij表示索引词ki、kj之间的关联因子,其值用如下公式计算:
cij=nij/(ni+nj-nij)
其中,ni、nj分别表是专利数据库中含有检索词ki和kj的专利文档数,nij表示数据库中同时含有索引词ki、kj的文档数;之后,对于专利数据库中文档dj,其隶属于模糊专利文档集合Di的隶属值可以通过如下计算:
ωij=1-∏(1-cij) (kj∈dj)
其中,专利文档dj隶属于模糊专利文档集合Di的程度,由dj中含有的索引词ki和索引词kj的关联强度决定;若专利文档dj中至少有一个索引词ki与kj为强相关(即cij的值接近1),通过ωij的表达式计算得到ωij的值也接近1;反之,若专利文档dj中所有的索引词与ki都没有强关联(cij的值接近0),经过同样的表达式计算得到ωij的值接近于0。
优选的,所述步骤S5中所述用户检索匹配函数计算公式如下:
其中ωij是dj隶属于qi所对应的模糊集合的隶属值,t为析取范式q中含有的合取子项的个数,sum(q,dj)代表匹配函数。
优选的,所述步骤S7中所述二次检索过滤具体指重复步骤S2~S6,选出主题专利文档。
(三)有益效果
从上述技术方案可以看出,本发明提出的基于向量空间的专利检索方法具有以下有益效果:
1、该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性。
2、该方法通过相似度计算函数提高了专利检索结果的匹配度和关联度。
附图说明
图1显示了本发明优选实施例的基于模糊集合模型的大数据专利检索方法流程图;
图2显示了本发明提出的基于模糊集合模型的智能化构件选取方法原理框图。
具体实施方式
下面结合附图,对本发明做的实施例作详细说明:本实施例在以本发明技术方案前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
图1显示了本发明提出的基于模糊集合模型的大数据专利检索方法原理框图。
如图1所示,本发明提出的基于模糊集合模型的大数据专利检索方法主要包括五部分。
用户首先从模糊索引或者精确索引中选择合适的检索方式,输入用户检索词。检索***接收用户检索词后,将其转化为析取范式形式q,按照专利要求书中的步骤S1~S7中所述内容计算出专利文献的匹配值。所述步骤具体为
步骤S1:用户结合模糊索引和精确索引提交专利检索词,将用户检索词的布尔表达式转化为等价的析取范式形式:
q=q1Vq2V……Vqt
其中,q为析取范式,t为含有的合取子项的个数,∨代表合取子项的并集;
步骤S2:根据析取范式q,排除一定不相关的专利文档,确定可能相关专利文档集合D;
步骤S3:利用经典专利数据库中的材料,确定每个析取范式qi对应的模糊专利文档集合Di
步骤S4:遍历集合D中的专利文档,对数据库中专利文档dj计算出dj隶属于模糊专利文档集合Di的隶属值ωij
步骤S5:对专利数据库中文档dj和析取范式q定义用户检索匹配函数,并输出匹配值;
其中ωij=1-∏(1-cij) (kj∈dj),匹配函数为
步骤S6:通过匹配值的大小排序,向用户输出前N个专利文档结果;
步骤S7:用户根据呈现的结果,选择所需专利文档,或者进行二次检索过滤,再次重复上述过程。
本发明具体实施例中,通过对匹配值的大小排序,从大到小向用户输出这前10个专利文档结果。用户根据输出的专利文档结果,可以调整输出专利文档的数目,所述专利文档的数目分别为10、20和50。若没有出现用户所需专利文档,用户可以调整用户索引词,进行二次检索再次过滤呈现出新的专利文档。最终用户根据呈现的专利文档选择对专利文档进行保存或者结束整个过程。
图2显示了本发明提出的基于模糊集合模型的智能化构件选取方法原理框图。
如图2所示,本发明提出的基于模糊集合模型的智能化构件选取方法包括七部分,分别是查询、检索、管理、评价、决策、构件和用例库。查询子***和检索子***主要负责给用户提供个性友好的查询手段以及快速正确的检索技术,所述个性友好查询手段以及正确检索技术是指超文本链接浏览和关键字描述检索技术。管理子***Ⅰ、Ⅱ主要负责构件库数据日常的管理与维护工作,所述日常管理和维护工作是指用户授权验证、构件数据增减等.评价子***主要根据各构件日常的检索、查询的情况与领域专家的打分、并结合构件评价的定量模型较适时地统计各构件的评价因数,以协助构件库的管理与查询。用例库主要将构件库中检索出的可重用构件在某个应用中的重用情况及其设计属性和规约看作一个用例,存入用例库;决策子***主要作用是处理在用例库中由检索子***提供的候选用例,决策子***根据候选用例的重用历史,向用户提供适合当前应用环境的构件及构件重用决策的可信度。如无合适用例,检索子***再到构件库中检索。在决策子***中,基于本发明提出的一种新的模糊集合模型的智能化重用构件选取方法,将构件选取看成一个决策分析问题,把模糊集合作为决策选择的基础,从候选构件在不同应用中的重用历史来决定它在当前应用中潜在的重用程度。
综上所述,本发明提出了一种基于模糊集合模型的大数据专利检索方法,属于专利检索技术领域。该方法基于模糊集合检索模型,对传统的布尔检索模型进行改进,用户利用模糊索引和精确索引提交专利检索词,将用户检索词的布尔表达式转化为等价的析取范式形式:同时根据析取范式排除一定不相关的文档,确定可能相关文档集合,然后利用经典数据库中的材料,确定每个析取范式对应的模糊文档集合,并计算出隶属于模糊文档集合的隶属值,最后进行用户检索匹配函数和匹配值计算,用户根据呈现的结果,选择所需专利,或者进行二次检索过滤,再次重复上述过程。该方法能够避免传统专利检索方法中检索式构造的非友善性和的二值匹配相关性,提高了专利检索结果的匹配度和关联度。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (5)

1.一种基于模糊集合模型的大数据专利检索方法,其特征在于,所述方法包括如下步骤:
步骤S1:用户结合模糊索引和精确索引提交专利检索词,将用户检索词的布尔表达式转化为等价的析取范式形式:
q=q1Vq2V……Vqt
其中,q为析取范式,t为含有的合取子项的个数,V代表合取子项的并集;
步骤S2:根据析取范式q,排除一定不相关的专利文档,确定可能相关专利文档集合D;
步骤S3:利用经典专利数据库中的材料,确定每个析取范式qi对应的模糊专利文档集合Di
步骤S4:遍历集合D中的专利文档,对数据库中专利文档dj计算出dj隶属于模糊专利文档集合Di的隶属值ωij
步骤S5:对专利数据库中文档dj和析取范式q定义用户检索匹配函数,并输出匹配值;
步骤S6:通过匹配值的大小排序,向用户输出前N个专利文档结果;
步骤S7:用户根据呈现的结果,选择所需专利文档,或者进行二次检索过滤,再次重复上述过程。
2.根据权利要求1所述的一种基于模糊集合模型的大数据专利检索方法,其特征在于,步骤S3中所述经典数据库为国家知识产权局专利数据库、国际专利数据库、美国专利数据库、日本专利数据库;并可根据专利类别进一步限定为发明专利数据库、发明专利数据库和外观设计专利数据库。
3.根据权利要求1所述的一种基于模糊集合模型的大数据专利检索方法,其特征在于,步骤S4中所述隶属值ωij计算方法如下:
首先定义索引词关联矩阵:以索引词集合K中的元素作为行和列,索引词之间语义关系作为元素值得一个词矩阵;用C表示关联矩阵,矩阵元素cij表示索引词ki、kj之间的关联因子,其值用如下公式计算:
cij=nij/(ni+nj-nij)
其中,ni、nj分别表是专利数据库中含有检索词ki和kj的专利文档数,nij表示数据库中同时含有索引词ki、kj的文档数;之后,对于专利数据库中文档dj,其隶属于模糊专利文档集合Di的隶属值可以通过如下计算:
ωij=1-∏(1-cij)(kj∈dj)
其中,专利文档dj隶属于模糊专利文档集合Di的程度,由dj中含有的索引词ki和索引词kj的关联强度决定;若专利文档dj中至少有一个索引词ki与kj为强相关(即cij的值接近1),通过ωij的表达式计算得到ωij的值也接近1;反之,若专利文档dj中所有的索引词与ki都没有强关联(cij的值接近0),经过同样的表达式计算得到ωij的值接近于0。
4.根据权利要求1所述的一种基于模糊集合模型的大数据专利检索方法,其特征在于,步骤S5中所述用户检索匹配函数计算公式如下:
<mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>q</mi> <mo>,</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>t</mi> </munderover> <msub> <mi>&amp;omega;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>
其中ωij是dj隶属于qi所对应的模糊集合的隶属值,t为析取范式q中含有的合取子项的个数,sum(q,dj)代表匹配函数。
5.根据权利要求1所述的一种基于模糊集合模型的大数据专利检索方法,其特征在于,步骤S7中所述二次检索过滤具体指重复步骤S2~S6,选出主题专利文档。
CN201710856760.6A 2017-09-21 2017-09-21 一种基于模糊集合模型的大数据专利检索方法 Pending CN107577800A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710856760.6A CN107577800A (zh) 2017-09-21 2017-09-21 一种基于模糊集合模型的大数据专利检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710856760.6A CN107577800A (zh) 2017-09-21 2017-09-21 一种基于模糊集合模型的大数据专利检索方法

Publications (1)

Publication Number Publication Date
CN107577800A true CN107577800A (zh) 2018-01-12

Family

ID=61033748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710856760.6A Pending CN107577800A (zh) 2017-09-21 2017-09-21 一种基于模糊集合模型的大数据专利检索方法

Country Status (1)

Country Link
CN (1) CN107577800A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783508A (zh) * 2018-12-29 2019-05-21 亚信科技(南京)有限公司 数据查询方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504046A (zh) * 2014-12-17 2015-04-08 江苏润桐数据服务有限公司 一种专利检索的***和方法
CN104933159A (zh) * 2015-06-26 2015-09-23 南京邮电大学 一种基于药品本体库的语义查询方法
CN105447135A (zh) * 2015-11-19 2016-03-30 北京锐安科技有限公司 数据查找方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504046A (zh) * 2014-12-17 2015-04-08 江苏润桐数据服务有限公司 一种专利检索的***和方法
CN104933159A (zh) * 2015-06-26 2015-09-23 南京邮电大学 一种基于药品本体库的语义查询方法
CN105447135A (zh) * 2015-11-19 2016-03-30 北京锐安科技有限公司 数据查找方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
樊红侠: "基于粗糙-模糊集的Web信息检索改进模型", 《现代图书情报技术》 *
谭德坤等: "基于模糊语言方法的信息检索***的研究", 《计算机仿真》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783508A (zh) * 2018-12-29 2019-05-21 亚信科技(南京)有限公司 数据查询方法、装置、计算机设备和存储介质
CN109783508B (zh) * 2018-12-29 2021-04-09 亚信科技(南京)有限公司 数据查询方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN103678564B (zh) 一种基于数据挖掘的互联网产品调研***
CN104111933B (zh) 获取业务对象标签、建立训练模型的方法及装置
CN111143479A (zh) 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法
CN106951438A (zh) 一种面向开放域的事件抽取***及方法
CN111177591B (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
CN106201465A (zh) 面向开源社区的软件项目个性化推荐方法
US8874581B2 (en) Employing topic models for semantic class mining
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
CN110175325A (zh) 基于词向量和句法特征的评论分析方法及可视化交互界面
CN105528437B (zh) 一种基于结构化文本知识提取的问答***构建方法
CN102200975B (zh) 一种利用语义分析的垂直搜索引擎***
CN105930469A (zh) 基于Hadoop的个性化旅游推荐***及方法
CN103488648A (zh) 一种多语种混合检索方法和***
CN104484380A (zh) 个性化搜索方法及装置
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及***
KR20060122276A (ko) 온톨로지 자동 구축을 위한 문서로부터 개념 간의 관계추출
CN106484829A (zh) 一种微博排序模型的建立及微博多样性检索方法
Kolte et al. Word sense disambiguation using wordnet domains
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法
CN105183803A (zh) 一种社交网络平台中的个性化搜索方法及其搜索装置
CN103559199A (zh) 网页信息抽取方法和装置
CN110175585A (zh) 一种简答题自动批改***及方法
CN114997288A (zh) 一种设计资源关联方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180112

WD01 Invention patent application deemed withdrawn after publication