CN109241078B - 一种基于混合数据库的知识图谱组织查询方法 - Google Patents

一种基于混合数据库的知识图谱组织查询方法 Download PDF

Info

Publication number
CN109241078B
CN109241078B CN201811005179.4A CN201811005179A CN109241078B CN 109241078 B CN109241078 B CN 109241078B CN 201811005179 A CN201811005179 A CN 201811005179A CN 109241078 B CN109241078 B CN 109241078B
Authority
CN
China
Prior art keywords
entity
entities
query
knowledge base
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811005179.4A
Other languages
English (en)
Other versions
CN109241078A (zh
Inventor
李新川
姚宏
陈仁谣
李圣文
梁庆中
郑坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201811005179.4A priority Critical patent/CN109241078B/zh
Publication of CN109241078A publication Critical patent/CN109241078A/zh
Application granted granted Critical
Publication of CN109241078B publication Critical patent/CN109241078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明一种基于混合数据库的知识图谱组织查询方法,包括:获取预设数据集中的三元组集合;从三元组集合中区分出实体三元组集合和关系三元组集合;在Neo4j上进行实体三元组集合的存储,得到带实体的知识库;针对带实体的知识库构建索引,得到带索引和实体的知识库;在Neo4j上进行关系三元组集合的存储,得到带索引、实体和关系的知识库;在MySQL上进行实体歧义信息的存储,构建实体歧义词表;将构建的实体歧义词表存储到带索引、实体和关系的知识库,得到完整的知识库。本发明结合关系型数据库和图数据库各自的优点,提出基于混合数据库的知识图谱组织方法,适用于一般的大规模开放领域知识图谱,在优化知识图谱存储结构的同时改善了知识图谱的查询效率。

Description

一种基于混合数据库的知识图谱组织查询方法
技术领域
本发明具体涉及一种基于混合数据库的知识图谱组织查询方法。
背景技术
知识图谱作为一种高效的信息组织和检索方式,自Google2012年提出以来,就掀起了一股知识图谱学习热潮。实体抽取、属性抽取、实体间关系抽取、知识推理、知识表示学习等方面更是成为了研究的热点,但是却很少有文献提及如何进行图谱的底层存储,以及该如何结合存储设计查询的接口,或者说虽然提及了,但是对这方面内容的描述却不完整,太过零散。存储与查询通常都是作为一个整体而出现,高效的查询需要好的存储结构来支持,而存储则需要结合查询的特点来不断进行优化。
传统的数据库,如关系型数据库。能够很好的根据知识图谱Schema层的信息进行聚类存储,访问某一类别的数据时效率很高,但是换言之,在进行存储之前,需要事先知道数据的Schema层次信息,并且Schema一旦确定下来,就很难再做大的变动,然而对于大规模开放领域的知识图谱而言,实体和关系的种类通常多而复杂,很难确定图谱中的Schema层次信息;其次,在面对多表连接(通常连接深度大于2)查询之时,关系型数据库也显得力不从心,但是进行这样的查询操作却是知识图谱的一个很基本的需求。
对于NOSQL数据库而言,如主键值数据库、列族存储数据库、面向文档数据库、图形数据库等。其中图数据库的数据结构与知识图谱最为贴近,表现为由大量的实体节点和实体间的关联关系组成的巨大的图结构模型,它能很好的表现出具体的或者抽象的事物之间的联系;同时能够很好的满足图的局部访问特性的需求。但是,对于图谱中不满足图数据结构的信息,比如实体之间的歧义信息该如何进行存储,则成为了一个还需解决的问题。
发明内容
本发明要解决的技术问题在于,针对上述目前传统关系型数据库和图数据库技术的不足,提供一种基于混合数据库的知识图谱组织查询方法解决上述问题。
一种基于混合数据库的知识图谱组织查询方法,包括:
步骤1、获取预设数据集中的三元组集合;
步骤2、从步骤1中获取的三元组集合中区分出实体三元组集合和关系三元组集合;
步骤3、在Neo4j上进行实体三元组集合的存储,得到带实体的知识库;
步骤4、针对带实体的知识库中存储的实体节点构建索引,得到带索引和实体的知识库;
步骤5、在Neo4j上进行关系三元组集合的存储,得到带索引、实体和关系的知识库;
步骤6、在MySQL上进行实体歧义的存储,构建实体歧义词表;
步骤7、将步骤6中构建的实体歧义词表存储到步骤5得到的带索引、实体和关系的知识库,得到完整的知识库;
步骤8、输入待查询的实体,采用MySQL+Neo4j的两级查询的方法在步骤7得到的完整的知识库中进行查询,得到完整的实体信息。
进一步的,步骤2中所述预设数据集指对实体和关系的一般性描述,为结构化数据、非结构化数据和半结构化数据中的任意一种或多种的组合。
进一步的,步骤3中具体的存储方法是:从实体三元组集合中区分出不同的实体节点并进行存储。
进一步的,步骤5中具体的存储方法是:从关系三元组集合中区分出头尾实体节点,然后在步骤4得到的带索引和实体的知识库中查询头尾实体,若命中则为头尾节点构建关系,否则关系作废。
进一步的,步骤6中所述实体歧义是指实体之间存在的一词多义以及同义词的情况。
进一步的,所述MySQL+Neo4j的两级查询结构具体包括:
(1)输入待查询的实体,首先需要在MySQL数据库中进行SQL查询,判断查询是否命中:若SQL查询命中,判定待查询的实体存在歧义,将其对应的所有歧义实体返回给用户,并对实体进行消歧,将消歧后的实体输入到Neo4j数据库中进行CQL查询;若SQL查询不命中,判定待查询的实体不存在歧义,直接将待查询的实体传输至Neo4j数据库中进行CQL查询;
(2)将待查询的实体或消歧后的实体作为Neo4j数据库的输入进行CQL查询,得到完整的实体信息,作为最后的输出。
进一步的,在SQL查询中判断查询是否命中的方法是:将待查询的实体与步骤6得到的实体歧义词表进行对比,若存在匹配,查询命中,反之则查询不命中。
本发明的优势在于:结合关系型数据库和图数据库各自的优点,提出基于混合数据库的知识图谱组织方法,适用于一般的大规模开放领域知识图谱,在优化知识图谱存储结构的同时改善了知识图谱的查询效率。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明的一种基于混合数据库的知识图谱组织查询方法流程图;
图2为本发明的MySQL+Neo4j的两级查询结构图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
如图1所示,一种基于混合数据库的知识图谱组织查询方法,包括:
步骤1、获取预设数据集中的三元组集合,预设数据集指对实体和关系的一般性描述,包括结构化数据、非结构化数据和半结构化数据;
步骤2、从步骤1中获取的三元组集合中区分出实体三元组集合和关系三元组集合;
步骤3、在Neo4j上进行实体三元组集合的存储,从实体三元组集合中区分出不同的实体节点并进行存储,得到带实体的知识库;
步骤4、针对带实体的知识库中存储的实体节点构建索引,得到带索引和实体的知识库
步骤5、在Neo4j上进行关系三元组集合的存储,从关系三元组集合中区分出头尾实体节点,然后在步骤4得到的带索引和实体的知识库中查询头尾实体,若命中则为头尾节点构建关系,否则关系作废,得到带索引、实体和关系的知识库;
步骤6、在MySQL上进行实体歧义信息的存储,构建实体歧义词表,实体歧义是指实体之间存在的一词多义以及同义词的情况。;
步骤7、将步骤6中构建的实体歧义词表存储到步骤5得到的带索引、实体和关系的知识库,得到完整的知识库。
步骤8、输入待查询的实体,采用MySQL+Neo4j的两级查询的方法在步骤7得到的完整的知识库中进行查询,得到完整的实体信息。
MvSQL+Neo4j的两级查询的方法具体是:首先在MvSOL中查询实体是否存在实体歧义信息,若存在则消歧过后再进入Neo4j中查询,否则直接在Neo4j中进行查询。如图2所示,查询过程如下:
1、SQL查询(如图2中标号1所示)
因为无法知道输入的实体名是不是存在歧义的情况,故输入的实体名首先需要在MySQL数据库中进行SQL查询,即将输入的实体名与图2中的歧义词表的第一列进行匹配(歧义词表的第一列为实体名,第二列为存在歧义的实体,如键值对<S1,<E1,E2>>表示实体名S1存在歧义,存在歧义的实体E1和E2指向同一字符串S1),若命中,则会返回指向同一字符串的多个实体。根据查询命中与否,分以下两种情况进行处理:
1)SQL查询命中:
即输入的实体名存在歧义(如图2所示,输入的实体名Sm存在歧义,故查询命中后返回指向同一字符串Sm的歧义实体Ek~Ek+n),将输入对应的所有歧义实体Ek~Ek+n返回给用户,并对实体进行消歧(如图2中标号2所示,由具体的应用场景决定具体的消歧方式),将消歧后的实体(Ek+i)输入到Neo4j数据库中进行CQL查询(如图2中标号3所示)。
2)SQL查询不命中:
即输入的实体名不存在歧义,直接进行CQL查询。
2、CQL查询(即图2中对知识库的查询)
无论SQL查询是否命中,最终得到的都只是实体名。为了得到实体的完整信息,需要将得到的实体名作为Neo4j数据库的输入进行CQL查询,从而得到完整的实体信息,作为最后对用户输入的应答。
具体的查询实例如下:
查询示例1:输入的实体名存在实体歧义
1)输入实体:七里香
2)SQL查询:在MySQL中进行歧义词表查询
3)SQL查询命中(代表输入的实体名“七里香”存在歧义),返回指向“七里香”的歧义实体:
七里香(周杰伦2004年发行专辑)
七里香(芸香科九里香属植物)
七里香(周杰伦演唱歌曲)
七里香(诗歌名、诗集名)
七里香(泰国电视连续剧)
七里香(中药)
七里香(小说《七里香》)
………………
4)实体消歧:
假设此时根据上下文进行实体消歧。
上下文为:“周杰伦的七里香是我很喜欢的一首歌曲”。
故根据上下文消歧后的实体为:七里香(周杰伦演唱歌曲)
5)CQL查询:
将消歧后的实体“七里香(周杰伦演唱歌曲)”在Neo4j中进行实体信息查询,得到最终的输出:
七里香(周杰伦演唱歌曲)
BaiduTAG:音乐作品/单曲
中文名:七里香
发行时间:2004年
歌曲原唱:周杰伦
填词:方文山
所属专辑:《七里香(周杰伦2004年发行专辑)》
歌曲时长:4:56
歌曲语言:普通话
编曲:钟心民
谱曲:周杰伦
音乐风格:中国风
………………
查询示例2:假设输入的实体名不存在实体歧义
1)输入实体:七里香(周杰伦演唱歌曲)
2)SQL查询:在MySQL中进行歧义词表查询
3)SQL查询不命中(代表此时输入的实体名不存在歧义)
4)CQL查询:
在Neo4j中进行实体信息查询,得到最终的输出:
七里香(周杰伦演唱歌曲)
BaiduTAG:音乐作品/单曲
中文名:七里香
发行时间:2004年
歌曲原唱:周杰伦
填词:方文山
所属专辑:《七里香(周杰伦2004年发行专辑)》
歌曲时长:4:56
歌曲语言:普通话
编曲:钟心民
谱曲:周杰伦
音乐风格:中国风
………………
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (7)

1.一种基于混合数据库的知识图谱组织查询方法,其特征在于,包括:
步骤1、获取预设数据集中的三元组集合;
步骤2、从步骤1中获取的三元组集合中区分出实体三元组集合和关系三元组集合;
步骤3、在Neo4j上进行实体三元组集合的存储,得到带实体的知识库;
步骤4、针对带实体的知识库中存储的实体节点构建索引,得到带索引和实体的知识库;
步骤5、在Neo4j上进行关系三元组集合的存储,得到带索引、实体和关系的知识库;
步骤6、在MySQL上进行实体歧义的存储,构建实体歧义词表;
步骤7、将步骤6中构建的实体歧义词表存储到步骤5得到的带索引、实体和关系的知识库,得到完整的知识库;
步骤8、输入待查询的实体,采用MySQL+Neo4j的两级查询的方法在步骤7得到的完整的知识库中进行查询,得到完整的实体信息。
2.根据权利要求1所述的一种基于混合数据库的知识图谱组织查询方法,其特征在于,步骤2中所述预设数据集指对实体和关系的一般性描述,为结构化数据、非结构化数据和半结构化数据中的任意一种或多种的组合。
3.根据权利要求1所述的一种基于混合数据库的知识图谱组织查询方法,其特征在于,步骤3中具体的存储方法是:从实体三元组集合中区分出不同的实体节点并进行存储。
4.根据权利要求1所述的一种基于混合数据库的知识图谱组织查询方法,其特征在于,步骤5中具体的存储方法是:从关系三元组集合中区分出头尾实体节点,然后在步骤4得到的带索引和实体的知识库中查询头尾实体,若命中则为头尾节点构建关系,否则关系作废。
5.根据权利要求1所述的一种基于混合数据库的知识图谱组织查询方法,其特征在于,步骤6中所述实体歧义是指实体之间存在的一词多义以及同义词的情况。
6.根据权利要求1所述的一种基于混合数据库的知识图谱组织查询方法,其特征在于,所述MySQL+Neo4j的两级查询结构具体包括:
(1)输入待查询的实体,首先需要在MySQL数据库中进行SQL查询,判断查询是否命中:若SQL查询命中,判定待查询的实体存在歧义,将其对应的所有歧义实体返回给用户,并对实体进行消歧,将消歧后的实体输入到Neo4j数据库中进行CQL查询;若SQL查询不命中,判定待查询的实体不存在歧义,直接将待查询的实体传输至Neo4j数据库中进行CQL查询;
(2)将待查询的实体或消歧后的实体作为Neo4j数据库的输入进行CQL查询,得到完整的实体信息,作为最后的输出。
7.根据权利要求6所述的一种基于混合数据库的知识图谱组织查询方法,其特征在于,在SQL查询中判断查询是否命中的方法是:将待查询的实体与步骤6得到的实体歧义词表进行对比,若存在匹配,查询命中,反之则查询不命中。
CN201811005179.4A 2018-08-30 2018-08-30 一种基于混合数据库的知识图谱组织查询方法 Active CN109241078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811005179.4A CN109241078B (zh) 2018-08-30 2018-08-30 一种基于混合数据库的知识图谱组织查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811005179.4A CN109241078B (zh) 2018-08-30 2018-08-30 一种基于混合数据库的知识图谱组织查询方法

Publications (2)

Publication Number Publication Date
CN109241078A CN109241078A (zh) 2019-01-18
CN109241078B true CN109241078B (zh) 2021-07-20

Family

ID=65067986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811005179.4A Active CN109241078B (zh) 2018-08-30 2018-08-30 一种基于混合数据库的知识图谱组织查询方法

Country Status (1)

Country Link
CN (1) CN109241078B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019687B (zh) * 2019-04-11 2021-03-23 宁波深擎信息科技有限公司 一种基于知识图谱的多意图识别***、方法、设备及介质
CN111859974A (zh) * 2019-04-22 2020-10-30 广东小天才科技有限公司 一种结合知识图谱的语义消歧方法和装置、智能学习设备
CN110489610B (zh) * 2019-08-14 2022-02-08 北京海致星图科技有限公司 一种知识图谱实时查询解决方案
CN110597927B (zh) * 2019-10-14 2022-08-16 上海依图网络科技有限公司 基于异构数据库的存储查询方法和装置
CN110928960B (zh) * 2019-10-28 2023-08-11 华中科技大学 一种数据存储***、方法、设备和存储介质
CN111160841A (zh) * 2019-11-29 2020-05-15 广东轩辕网络科技股份有限公司 一种基于知识图谱的组织架构构建方法及装置
CN113761213B (zh) * 2020-06-01 2024-06-18 Tcl科技集团股份有限公司 一种基于知识图谱的数据查询***、方法及终端设备
CN113342807A (zh) * 2021-05-20 2021-09-03 电子科技大学 一种基于混合数据库的知识图谱及其构建方法
CN113297089B (zh) * 2021-06-09 2023-06-20 南京大学 一种基于知识图谱的众测助理实现方法
CN114238268B (zh) * 2021-11-29 2022-09-30 武汉达梦数据技术有限公司 一种数据存储方法和装置
CN114398492B (zh) * 2021-12-24 2022-08-30 森纵艾数(北京)科技有限公司 一种在数字领域的知识图谱构建方法、终端及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224630A (zh) * 2015-09-24 2016-01-06 中国科学院自动化研究所 基于语义网本体数据的集成方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的***及方法
CN107330125A (zh) * 2017-07-20 2017-11-07 云南电网有限责任公司电力科学研究院 基于知识图谱技术的海量非结构化配网数据集成方法
CN107633075A (zh) * 2017-09-22 2018-01-26 吉林大学 一种多源异构数据融合平台及融合方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105431839A (zh) * 2013-03-15 2016-03-23 罗伯特·哈多克 具有提供对知识的一步访问的自适应用户接口的智能互联网***
KR20140145018A (ko) * 2013-06-12 2014-12-22 한국전자통신연구원 지식 인덱스 시스템 및 그 방법
US20180137424A1 (en) * 2016-11-17 2018-05-17 General Electric Company Methods and systems for identifying gaps in predictive model ontology

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224630A (zh) * 2015-09-24 2016-01-06 中国科学院自动化研究所 基于语义网本体数据的集成方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的***及方法
CN107330125A (zh) * 2017-07-20 2017-11-07 云南电网有限责任公司电力科学研究院 基于知识图谱技术的海量非结构化配网数据集成方法
CN107633075A (zh) * 2017-09-22 2018-01-26 吉林大学 一种多源异构数据融合平台及融合方法

Also Published As

Publication number Publication date
CN109241078A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN109241078B (zh) 一种基于混合数据库的知识图谱组织查询方法
CN107993724B (zh) 一种医学智能问答数据处理的方法及装置
KR101732342B1 (ko) 신뢰 질의 시스템 및 방법
CN111291161A (zh) 法律案件知识图谱查询方法、装置、设备及存储介质
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
US20120166414A1 (en) Systems and methods for relevance scoring
US20170116260A1 (en) Using a dimensional data model for transforming a natural language query to a structured language query
CN101763402B (zh) 多语言信息检索一体化检索方法
WO2007143899A1 (fr) Système et procédé pour l&#39;extraction intelligente et le traitement d&#39;informations
CN103646032A (zh) 一种基于本体和受限自然语言处理的数据库查询方法
JP2005251115A (ja) 連想検索システムおよび連想検索方法
KR20160007040A (ko) 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
CN109597895B (zh) 一种基于知识图谱的公文搜索方法
CN112231321B (zh) 一种Oracle二级索引及索引实时同步方法
WO2020074017A1 (zh) 基于深度学习的医学文献中关键词筛选方法及装置
KR101095866B1 (ko) 웹 기반의 정보 저장 및 검색 방법, 이를 위한 정보 관리 시스템
CN115563313A (zh) 基于知识图谱的文献书籍语义检索***
CN101751420A (zh) 语义脉络文档查询方法
Hu et al. Scalable aggregate keyword query over knowledge graph
TWI605353B (zh) File classification system, method and computer program product based on lexical statistics
Hovy et al. Data Acquisition and Integration in the DGRC's Energy Data Collection Project
CN102508920B (zh) 一种基于Boosting分类算法的信息检索方法
Chakrabarti et al. Enhancing search with structure
Li et al. Ontology-based query system design and implementation
Naz et al. Fully automatic OWL generator from RDB schema

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190118

Assignee: WUHAN TIMES GEOSMART TECHNOLOGY Co.,Ltd.

Assignor: CHINA University OF GEOSCIENCES (WUHAN CITY)

Contract record no.: X2022420000021

Denomination of invention: An organization and query method of knowledge map based on hybrid database

Granted publication date: 20210720

License type: Common License

Record date: 20220302