CN109145071B - 一种面向地球物理领域知识图谱的自动化构建方法及*** - Google Patents

一种面向地球物理领域知识图谱的自动化构建方法及*** Download PDF

Info

Publication number
CN109145071B
CN109145071B CN201810883507.4A CN201810883507A CN109145071B CN 109145071 B CN109145071 B CN 109145071B CN 201810883507 A CN201810883507 A CN 201810883507A CN 109145071 B CN109145071 B CN 109145071B
Authority
CN
China
Prior art keywords
relation
entities
knowledge
geophysical
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810883507.4A
Other languages
English (en)
Other versions
CN109145071A (zh
Inventor
董理君
姚宏
赵东阳
康晓军
李新川
郑坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201810883507.4A priority Critical patent/CN109145071B/zh
Publication of CN109145071A publication Critical patent/CN109145071A/zh
Application granted granted Critical
Publication of CN109145071B publication Critical patent/CN109145071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明一种面向地球物理领域知识图谱的自动化构建方法,首先,建立起地球物理领域的概念知识库;其次,建立地球物理领域邻域内每种关系对应的关系指示词库;然后获取地球物理领域知识数据集;接着对文本进行NLP处理,然后利用标记的地球物理领域知识概念对文本进行基于词距离与实体距离对候选实体对进行识别。接着根据词性标注以及位置信息生成包含噪声数据的候选关系指示词集,利用关系指示词库进行噪声过滤;接着将提前定义好的每种关系对应的关系指示词转换成向量之后,与候选关系指示词转的向量进行相似度计算,找出相似度最高的关系指示词对应的关系;最后将这些结构化的数据导入到图数据库Neo4j中,搭建地球物理领域知识图谱。

Description

一种面向地球物理领域知识图谱的自动化构建方法及***
技术领域
本发明具体涉及一种面向地球物理领域知识图谱的自动化构建方法及***。
背景技术
伴随着地球物理领域理论研究的不断深入与创新、应用领域的不断扩展,该学科内的知识数据在不断地增长,但是这些知识数据呈现的离散性的分布形式导致地球物理领域知识数据的***性缺乏。另外,线性文本形式的知识存储结构阻碍了地球物理领域知识的在人与外界的快速流通,人们渴望快速获取知识的需求得不到满足。尤其是随着大数据时代的到来,人们渴望快速获取海量知识的需求与知识数据的离散分布造成信息获取困难以及知识数据的线性结构表示造成理解效率底下之间的矛盾日益突出。
为了解决以上问题,本专利提出了一种自动化的构建知识图谱的方法,来为地球物理领域建立起专业领域的知识图谱。输入是地球物理领域的非结构化文本,输出是结构化的知识数据,也就是我们常说的三元组知识数据。
目前有很多自动化构建知识图谱的方法,但是大部分都是针对指定关系的三元组数据抽取,这种方法不适用于关系较多,较复杂的专业领域内。而开放式的三元组抽取工作在英文中研究的较多,中文的开放式三元组抽取相关研究还比较少,而且,中文与英文的语言现象相差较大,所以无法直接将英文的方法直接移植到中文上,而且精度不高。
发明内容
本发明要解决的技术问题在于,针对上述目前开放式三元组自动化抽取技术的不足,本发明结合地球物理领域的理论知识结构特点以及建立的“概念知识库”和“关系指示词库”,以及生成的“候选关系指示词组”与各个“关系指示词组”之间的相似度匹配算法,提供一种自动化构建地球物理领域知识图谱的方法及***。
一种面向地球物理领域知识图谱的自动化构建方法,包括:
步骤1:建立包含地球物理领域的专业词汇的概念知识库;
步骤2:建立包含地球物理领域的非结构化文本的知识数据集;
步骤3:根据步骤2中建立的知识数据集,获取知识数据集中包含的所有的关系及这些关系对应的关系指示词,建立地球物理领域的关系指示词库;
步骤4:根据概念知识库对知识数据集进行NLP处理,包括分词、词性标注以及地球物理领域的实体识别;
步骤5:识别步骤4中识别出的任意两个实体之间是否存在关系,若存在关系,获取两个实体之间的关系;
步骤6:抽取分布在任意两个实体之间以及任意两个实体之后名词及动词作为候选关系指示词,该候选关系指示词能够体现步骤5中获取的两个实体之间的关系;
步骤7:根据步骤3中建立的关系指示词库对步骤6抽取的候选关系指示词进行去噪处理,得到高精度的候选关系指示词;
步骤8:将关系指示词库以及步骤7得到的高精度的候选关系指示词转换成向量,计算彼此的相似度,选取与高精度的候选关系指示词相似度最高的关系指示词对应的关系作为两个实体之间的关系,最终得到结构化的知识数据;
步骤9:将步骤8得到的结构化的知识数据导入图数据库中,用于自动搭建地球物理领域知识图谱。
进一步的,步骤2中采用Scrapy爬虫框架的方法建立知识数据集。
进一步的,步骤3中采用穷举法获取知识数据集中包含的所有的关系及这些关系对应的关系指示词。
进一步的,步骤5识别任意两个实体之间是否存在关系的方法是:当两个实体之间词距离不超过预设最大距离并且实体数目小于预设最小距离的时候,判定这两个实体之间存在关系;
进一步的,步骤8中利用Bag-of-words的方法将高精度的候选关系指示词转换成向量;
进一步的,步骤8中最终得到结构化的知识数据是三元组数据。
一种面向地球物理领域知识图谱的自动化构建***,包括:
词汇采集模块:用于建立包含地球物理领域的专业词汇的概念知识库;
文本采集模块:用于建立包含地球物理领域的非结构化文本的知识数据集;
关系采集模块:用于根据步骤2中建立的知识数据集,获取知识数据集中包含的所有的关系及这些关系对应的关系指示词,建立地球物理领域的关系指示词库;
实体识别模块:用于根据概念知识库对知识数据集进行NLP处理,包括分词、词性标注以及地球物理领域的实体识别;
关系识别模块:用于识别步骤4中识别出的任意两个实体之间是否存在关系,若存在关系,获取两个实体之间的关系;
指示词抽取模块:用于抽取分布在任意两个实体之间以及任意两个实体之后名词或动词作为候选关系指示词,该候选关系指示词能够体现步骤5中获取的两个实体之间的关系;
指示词去噪模块:用于根据步骤3中建立的关系指示词库对步骤6抽取的候选关系指示词进行去噪处理,得到高精度的候选关系指示词;
关系计算模块:用于将关系指示词库以及步骤7得到的高精度的候选关系指示词转换成向量,计算彼此的相似度,选取与高精度的候选关系指示词相似度最高的关系指示词对应的关系作为两个实体之间的关系,最终得到结构化的知识数据;
自动搭建模块:用于将步骤8得到的结构化的知识数据导入图数据库中,用于自动搭建地球物理领域知识图谱。
本发明搭建的专业理论的知识图谱,能够加快知识数据在人与人、人与机器之间的流动速度,结构化的地球物理知识数据为通过表示学习让机器理解人类知识并提供智能化的知识服务(比如智能问答、智能对话等)奠定了基础。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明的一种面向地球物理领域知识图谱的自动化构建方法流程图;
图2为本发明的地球物理知识图谱效果图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
一种面向地球物理领域知识图谱的自动化构建方法,实现该方法的具体步骤如下:
步骤1:建立地球物理领域的概念知识库,概念知识库中包含地球物理领域的专业词汇,将该概念知识库加载到哈尔滨工业大学语言技术平台(LTP)中。
步骤2:采用Scrapy爬虫框架的方法建立地球物理领域的知识数据集,知识数据集包含地球物理领域的非结构化文本,采用步骤1中建立的概念知识库对知识数据集抽取多个实体(比如,重力场、重力异常、柯其霍夫界面等概念),其中每个实体(例如“地球重力场”、“地球物理学”)都可以通过步骤1中建立的概念知识库作为监督数据被识别出来,然而这两个实体之间的关系(例如“研究分支”)则不能,实体与实体之间的关系包含在知识数据集中(例如“地球重力场是地球物理学研究的重要分支之一”),有待步骤3的自动化方法来进行挖掘,而不是依赖人工。
步骤3:根据步骤2中建立的知识数据集,利用穷举法获取知识数据集中包含的所有的关系及这些关系对应的关系指示词,建立地球物理领域的关系指示词库。比如,实体“地球物理学”与实体“地球重力场”之间的关系为“研究分支”,而关系指示词可以是“研究”、“分支”。反过来,在后续步骤5中,对于非结构化文本“地球重力场是地球物理学研究的重要分支之一”中,识别出了两个实体之后,又有“研究”、“分支”这些关系知识词,从而最终找到两个实体之间的关系是“研究分支”,最终可以得到三元组(地球物理学,研究分支,地球重力场)。建立关系指示词库的目的是给步骤8中从非结构化文本中关系指示词反推关系提供依据。
步骤4:采用加载有概念知识库的哈尔滨工业大学语言技术平台(LTP)对知识数据集进行NLP处理,进行分词、词性标注以及地球物理领域的实体识别。
步骤5:判断步骤4中识别出的任意两个实体之间是否存在关系,判断方法是当两个实体之间词距离不超过预设maxDistance并且实体数目小于预设maxEntityDistance的时候,认为这两个实体之间存在关系。因为实体之间词距离越短、实体越少,存在关系的概率越大。
步骤6:抽取分布在实体对之间以及实体对之后名词及动词作为候选关系指示词,该候选关系指示词能够体现步骤5中识别出的两个实体之间的关系,其中有70%左右的候选关系指示词位于两个实体之间,10%-20%的候选关系指示词位于两个实体的后面,剩下很少一部分候选关系指示词位于第一个实体前或者不存在,并且这些候选关系指示词多以名词或动词的形式出现。
步骤7:根据步骤3中建立的关系指示词库对步骤6抽取的候选关系指示词进行去噪处理,得到高精度的候选关系指示词。
步骤8:将每种关系对应的关系指示词库以及步骤7得到的高精度的候选关系指示词利用Bag-of-words的方法转换成向量,计算彼此的相似度,选取与高精度的候选关系指示词相似度最高的关系指示词对应的关系作为两个实体之间的关系,最终得到结构化的知识数据,也就是三元组数据。
步骤9:将步骤8得到的三元组数据导入图数据库Neo4j中,用于自动搭建地球物理领域知识图谱。
获得结构化的三元组知识数据,并将其导入图数据库Neo4j中,就可实现知识图谱的可视化,如图2所示。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (7)

1.一种面向地球物理领域知识图谱的自动化构建方法,其特征在于,包括:
步骤1:建立包含地球物理领域的专业词汇的概念知识库;
步骤2:建立包含地球物理领域的非结构化文本的知识数据集;
步骤3:根据步骤2中建立的知识数据集,获取知识数据集中包含的所有的关系及这些关系对应的关系指示词,建立地球物理领域的关系指示词库;
步骤4:根据概念知识库对知识数据集进行NLP处理,包括分词、词性标注以及地球物理领域的实体识别;
步骤5:识别步骤4中识别出的任意两个实体之间是否存在关系,若存在关系,获取两个实体之间的关系;
步骤6:抽取分布在任意两个实体之间以及任意两个实体之后名词或动词作为候选关系指示词,该候选关系指示词能够体现步骤5中获取的两个实体之间的关系;
步骤7:根据步骤3中建立的关系指示词库对步骤6抽取的候选关系指示词进行去噪处理,得到高精度的候选关系指示词;
步骤8:将关系指示词库以及步骤7得到的高精度的候选关系指示词转换成向量,计算彼此的相似度,选取与高精度的候选关系指示词相似度最高的关系指示词对应的关系作为两个实体之间的关系,最终得到结构化的知识数据;
步骤9:将步骤8得到的结构化的知识数据导入图数据库中,用于自动搭建地球物理领域知识图谱。
2.根据权利要求1所述的一种面向地球物理领域知识图谱的自动化构建方法,其特征在于,步骤2中采用Scrapy爬虫框架的方法建立知识数据集。
3.根据权利要求1所述的一种面向地球物理领域知识图谱的自动化构建方法,其特征在于,步骤3中采用穷举法获取知识数据集中包含的所有的关系及这些关系对应的关系指示词。
4.根据权利要求1所述的一种面向地球物理领域知识图谱的自动化构建方法,其特征在于,步骤5识别任意两个实体之间是否存在关系的方法是:当两个实体之间词距离不超过预设最大距离并且实体数目小于预设最小距离的时候,判定这两个实体之间存在关系。
5.根据权利要求1所述的一种面向地球物理领域知识图谱的自动化构建方法,其特征在于,步骤8中利用Bag-of-words的方法将高精度的候选关系指示词转换成向量。
6.根据权利要求1所述的一种面向地球物理领域知识图谱的自动化构建方法,其特征在于,步骤8中最终得到结构化的知识数据是三元组数据。
7.一种面向地球物理领域知识图谱的自动化构建***,其特征在于,包括:
词汇采集模块:用于建立包含地球物理领域的专业词汇的概念知识库;
文本采集模块:用于建立包含地球物理领域的非结构化文本的知识数据集;
关系采集模块:用于根据文本采集模块中建立的知识数据集,获取知识数据集中包含的所有的关系及这些关系对应的关系指示词,建立地球物理领域的关系指示词库;
实体识别模块:用于根据概念知识库对知识数据集进行NLP处理,包括分词、词性标注以及地球物理领域的实体识别;
关系识别模块:用于识别实体识别模块中识别出的任意两个实体之间是否存在关系,若存在关系,获取两个实体之间的关系;
指示词抽取模块:用于抽取分布在任意两个实体之间以及任意两个实体之后名词或动词作为候选关系指示词,该候选关系指示词能够体现关系识别模块中获取的两个实体之间的关系;
指示词去噪模块:用于根据关系采集模块中建立的关系指示词库对指示词抽取模块抽取的候选关系指示词进行去噪处理,得到高精度的候选关系指示词;
关系计算模块:用于将关系指示词库以及指示词去噪模块得到的高精度的候选关系指示词转换成向量,计算彼此的相似度,选取与高精度的候选关系指示词相似度最高的关系指示词对应的关系作为两个实体之间的关系,最终得到结构化的知识数据;
自动搭建模块:用于将关系计算模块得到的结构化的知识数据导入图数据库中,用于自动搭建地球物理领域知识图谱。
CN201810883507.4A 2018-08-06 2018-08-06 一种面向地球物理领域知识图谱的自动化构建方法及*** Active CN109145071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810883507.4A CN109145071B (zh) 2018-08-06 2018-08-06 一种面向地球物理领域知识图谱的自动化构建方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810883507.4A CN109145071B (zh) 2018-08-06 2018-08-06 一种面向地球物理领域知识图谱的自动化构建方法及***

Publications (2)

Publication Number Publication Date
CN109145071A CN109145071A (zh) 2019-01-04
CN109145071B true CN109145071B (zh) 2021-08-27

Family

ID=64791709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810883507.4A Active CN109145071B (zh) 2018-08-06 2018-08-06 一种面向地球物理领域知识图谱的自动化构建方法及***

Country Status (1)

Country Link
CN (1) CN109145071B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933789B (zh) * 2019-02-27 2021-04-13 中国地质大学(武汉) 一种基于神经网络的司法领域关系抽取方法及***
CN110222196A (zh) * 2019-06-18 2019-09-10 卓尔智联(武汉)研究院有限公司 渔业知识图谱构建装置、方法及计算机可读存储介质
CN110222198A (zh) * 2019-06-18 2019-09-10 卓尔智联(武汉)研究院有限公司 有色金属行业知识图谱构建方法、电子装置及存储介质
CN112559765B (zh) * 2020-12-11 2023-06-16 中电科大数据研究院有限公司 一种多源异构数据库语义集成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760425A (zh) * 2016-01-17 2016-07-13 曲阜师范大学 一种本体数据存储方法
CN105760495A (zh) * 2016-02-17 2016-07-13 扬州大学 一种基于知识图谱针对bug问题进行探索性搜索方法
EP3051435A1 (en) * 2013-09-29 2016-08-03 Peking University Founder Group Co., Ltd Method and system for obtaining a knowledge point implicit relationship
CN106844658A (zh) * 2017-01-23 2017-06-13 中山大学 一种中文文本知识图谱自动构建方法及***
EP3051434A4 (en) * 2013-09-29 2017-06-14 Peking University Founder Group Co., Ltd Method and system for measurement of knowledge point relationship strength
CN107609152A (zh) * 2017-09-22 2018-01-19 百度在线网络技术(北京)有限公司 用于扩展查询式的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019538B2 (en) * 2015-04-01 2018-07-10 Tata Consultancy Services Limited Knowledge representation on action graph database

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3051435A1 (en) * 2013-09-29 2016-08-03 Peking University Founder Group Co., Ltd Method and system for obtaining a knowledge point implicit relationship
EP3051434A4 (en) * 2013-09-29 2017-06-14 Peking University Founder Group Co., Ltd Method and system for measurement of knowledge point relationship strength
CN105760425A (zh) * 2016-01-17 2016-07-13 曲阜师范大学 一种本体数据存储方法
CN105760495A (zh) * 2016-02-17 2016-07-13 扬州大学 一种基于知识图谱针对bug问题进行探索性搜索方法
CN106844658A (zh) * 2017-01-23 2017-06-13 中山大学 一种中文文本知识图谱自动构建方法及***
CN107609152A (zh) * 2017-09-22 2018-01-19 百度在线网络技术(北京)有限公司 用于扩展查询式的方法和装置

Also Published As

Publication number Publication date
CN109145071A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109145071B (zh) 一种面向地球物理领域知识图谱的自动化构建方法及***
CN108629414B (zh) 深度哈希学习方法及装置
CN112199938B (zh) 一种科技项目相似分析方法、计算机设备、存储介质
CN113553412A (zh) 问答处理方法、装置、电子设备和存储介质
CN111241209A (zh) 用于生成信息的方法和装置
CN115238029A (zh) 一种电力故障知识图谱的构建方法和装置
CN103902582B (zh) 一种减少数据仓库数据冗余的方法和装置
CN113763937A (zh) 语音处理模型的生成方法、装置、设备以及存储介质
CN116028798A (zh) 水害预警数据处理方法、装置、计算机设备和存储介质
CN114120166B (zh) 视频问答方法、装置、电子设备及存储介质
CN112599211B (zh) 一种医疗实体关系抽取方法及装置
CN110580337A (zh) 一种基于实体相似度计算的专业实体消歧实现方法
CN112818072A (zh) 旅游知识图谱更新方法、***、设备及存储介质
CN114842482B (zh) 一种图像分类方法、装置、设备和存储介质
CN111930959A (zh) 用于图谱知识生成文本的方法与装置
CN111814457A (zh) 一种电网工程合同文本生成方法
CN113360712B (zh) 视频表示的生成方法、装置和电子设备
CN117494806B (zh) 基于知识图谱和大语言模型的关系抽取方法、***及介质
CN112837148B (zh) 一种融合领域知识的风险逻辑关系量化分析方法
CN112819205B (zh) 工时预测方法、装置及***
CN116227598B (zh) 一种基于双阶段注意力机制的事件预测方法、设备及介质
CN118093785B (zh) 一种面向分布式协同的航空电子故障知识融合方法
CN112507126B (zh) 一种基于循环神经网络的实体链接装置和方法
CN113536751B (zh) 表格数据的处理方法、装置、电子设备和存储介质
CN112307278B (zh) 一种任意尺度的话题脉络实时生成方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant