CN109977419B - 一种知识图谱构建*** - Google Patents

一种知识图谱构建*** Download PDF

Info

Publication number
CN109977419B
CN109977419B CN201910280117.2A CN201910280117A CN109977419B CN 109977419 B CN109977419 B CN 109977419B CN 201910280117 A CN201910280117 A CN 201910280117A CN 109977419 B CN109977419 B CN 109977419B
Authority
CN
China
Prior art keywords
module
information
knowledge
data
communication connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910280117.2A
Other languages
English (en)
Other versions
CN109977419A (zh
Inventor
张晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Useear Information Technology Co ltd
Original Assignee
Xiamen Useear Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Useear Information Technology Co ltd filed Critical Xiamen Useear Information Technology Co ltd
Priority to CN201910280117.2A priority Critical patent/CN109977419B/zh
Publication of CN109977419A publication Critical patent/CN109977419A/zh
Application granted granted Critical
Publication of CN109977419B publication Critical patent/CN109977419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种知识图谱构建***,包括信息输入模块、转换模块、提取模块、分词模块、过滤模块、三元组识别模块、中央处理器、知识图谱生成和存储模块和数据库模块;信息输入模块与转换模块通讯连接;提取模块与转换模块通讯连接,且提取模块与分词模块通讯连接;过滤模块与分词模块通讯连接,且过滤模块与中央处理器通讯连接;数据库模块与中央处理器通讯连接;三元组识别模块与中央处理器通讯连接,三元组识别模块与数据库模块通讯连接;知识图谱生成和存储模块与中央处理器通讯连接。本发明方便对新更新的知识进行录入以结合现在知识生成新的知识图谱,从而方便知识的传播和交流。

Description

一种知识图谱构建***
技术领域
本发明涉及知识图谱构建技术领域,尤其涉及一种知识图谱构建***。
背景技术
知识图谱又称为科学知识图谱;知识图谱在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体并挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。构建知识图谱是目前实现人工智能技术在具体行业领域中应用的核心。以往的知识图谱主要基于现有的学科教材和文献知识,通过二次加工和编辑得出;随着科技的发展,各个领域的知识更新和延展速度极快,其中仅有少量的知识可以通过各类百科网站查询浏览,而知识都是非结构化和半结构化的数据;大多数更新的知识需要加入书籍和文献中,并通过书籍和文献的形式交流则很不方便,容易造成信息的滞后;将各领域更新的知识通过知识图谱的形式展示出,有利于人们对相关信息的浏览并有利于知识的交流,但是现有的知识图谱的构建需要投入了大量的人工和时间投入,且构建知识图谱的效率低成本高。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种知识图谱构建***,本发明方便对新更新的知识进行录入以结合现在知识生成新的知识图谱,从而方便对知识的传播和交流。
(二)技术方案
为解决上述问题,本发明提供了一种知识图谱构建***,包括信息输入模块、转换模块、提取模块、分词模块、过滤模块、三元组识别模块、中央处理器、知识图谱生成和存储模块和数据库模块;
信息输入模块与转换模块通讯连接,信息输入模块用于输入信息A,且信息输入模块将信息A发送给转换模块;转换模块用于将信息A转换为结构化数据B;
提取模块与转换模块通讯连接,且提取模块与分词模块通讯连接;提取模块用于提取结构化数据B并将提取的数据化结构B发送给分词模块;分词模块用于将数据化结构B进行分词并得到多个文本内容片段C;
过滤模块与分词模块通讯连接,且过滤模块与中央处理器通讯连接;过滤模块用于将得到的多个文本内容片段C进行过滤,并得到多个关键实体的实体信息D;过滤模块用于将多个关键实体的实体信息D发送给中央处理器;
数据库模块与中央处理器通讯连接,数据库模块用于存储信息A领域的全部结构化数据;
三元组识别模块与中央处理器通讯连接,三元组识别模块与数据库模块通讯连接;三元组识别模块用于将多个关键实体的实体信息D分别与数据库模块中的数据按照实体关系进行融化,生成新的数据化结构E;
知识图谱生成和存储模块与中央处理器通讯连接,知识图谱生成和存储模块用于获得新的数据化结构E生成对应的知识图谱F,并将知识图谱F进行存储。
优选的,信息输入模块输入的信息A包括结构化数据、非结构化的数据和半结构化的数据。
优选的,还包括数据审查模块;数据审查模块用于自动获取信息A领域的非结构化数据和半结构化数据,并将上述获得的非结构化数据和半结构化数据转化为结构化数据;数据审查模块与数据库模块通讯连接,数据审查模块将获得的结构化数据发送给数据库模块。
优选的,还包括显示模块;显示模块与中央处理器通讯连接,显示模块用于显示生成的知识图谱F。
优选的,三元组识别模块包括第一识别匹配单元、第二识别匹配单元、第三识别匹配单元和确定单元;
第一识别匹配单元用于将所述知识文本内容片段中的至少一个关键词与信息A领域的全部结构化数据中的领域主题进行匹配,确定所述知识文本内容片段的领域主题;
第二识别匹配单元用于多个关键实体的实体信息D中的至少一个关键词按照预设的规则与对应的信息A领域的全部结构化数据包括的模型进行匹配,确定与多个关键实体的实体信息D匹配的模型以及多个关键实体的实体信息D的知识元实例;
第三识别匹配单元用于将多个关键实体的实体信息D中的至少一个关键词按照预设的规则与对应的模型的属性进行匹配,确定多个关键实体的实体信息D中知识元实例的属性;
确定单元,用于结合多个关键实体的实体信息D中知识元实例的属性,确定知识元实例之间的关联关系。
优选的,上述的一种知识图谱构建***的使用方法,具体步骤为:
S1、将信息A输入信息输入模块;
S2、转换模块将信息A转换为结构化数据B;
S3、提取模块提取结构化数据B并将提取的数据化结构B发送给分词模块;
S4、分词模块用将数据化结构B进行分词并得到多个文本内容片段C;
S5、过滤模块将得到的多个文本内容片段C进行过滤,并得到多个关键实体的实体信息D;过滤模块将多个关键实体的实体信息D发送给中央处理器;
S6、三元组识别模块将多个关键实体的实体信息D分别与数据库模块中的数据按照实体关系进行融化,生成新的数据化结构E;
S7、知识图谱生成和存储模块将获得新的数据化结构E生成对应的知识图谱F,并将知识图谱F进行存储;
S8、显示模块对生成的知识图谱F进行显示。
本发明的上述技术方案具有如下有益的技术效果:本发明通过信息输入模块将某一领域的新更新的包括非结构化的数据和半结构化的数据的知识进行输入,输入的知识全部转化为结构化数据;对结构化数据进行提取并分词;对分词后的多个关键实体的实体信息与当前现有数据按照实体关系进行融化,并最终生成最新知识对应的知识图谱;通过本发明方便对新更新的知识进行录入以结合现在知识生成新的知识图谱,从而方便对知识的传播和交流。
附图说明
图1为本发明提出的一种知识图谱构建***的原理框。
图2为本发明提出的一种知识图谱构建***的使用方法的流程图。
附图标记:1、信息输入模块;2、转换模块;3、提取模块;4、分词模块;5、过滤模块;6、三元组识别模块;7、中央处理器;8、知识图谱生成和存储模块;9、数据库模块;10、数据审查模块。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
图1为本发明提出的一种知识图谱构建***的原理框。
图2为本发明提出的一种知识图谱构建***的使用方法的流程图。
如图1所示,本发明提出的一种知识图谱构建***,包括信息输入模块1、转换模块2、提取模块3、分词模块4、过滤模块5、三元组识别模块6、中央处理器7、知识图谱生成和存储模块8和数据库模块9;
信息输入模块1与转换模块2通讯连接,信息输入模块1用于输入信息A,且信息输入模块1将信息A发送给转换模块2;转换模块2用于将信息A转换为结构化数据B;
提取模块3与转换模块2通讯连接,且提取模块3与分词模块4通讯连接;提取模块3用于提取结构化数据B并将提取的数据化结构B发送给分词模块4;分词模块4用于将数据化结构B进行分词并得到多个文本内容片段C;
过滤模块5与分词模块4通讯连接,且过滤模块5与中央处理器7通讯连接;过滤模块5用于将得到的多个文本内容片段C进行过滤,并得到多个关键实体的实体信息D;过滤模块5用于将多个关键实体的实体信息D发送给中央处理器7;
数据库模块9与中央处理器7通讯连接,数据库模块9用于存储信息A领域的全部结构化数据;
三元组识别模块6与中央处理器7通讯连接,三元组识别模块6与数据库模块9通讯连接;三元组识别模块6用于将多个关键实体的实体信息D分别与数据库模块9中的数据按照实体关系进行融化,生成新的数据化结构E;
知识图谱生成和存储模块8与中央处理器7通讯连接,知识图谱生成和存储模块8用于获得新的数据化结构E生成对应的知识图谱F,并将知识图谱F进行存储。
在一个可选的实施例中,信息输入模块1输入的信息A包括结构化数据、非结构化的数据和半结构化的数据。
需要说明的是,当信息A为结构化数据时,则信息A不需要进行转化直接可以进行后续操作。
在一个可选的实施例中,还包括数据审查模块10;数据审查模块10用于自动获取信息A领域的非结构化数据和半结构化数据,并将上述获得的非结构化数据和半结构化数据转化为结构化数据;数据审查模块10与数据库模块9通讯连接,数据审查模块10将获得的结构化数据发送给数据库模块9。
在一个可选的实施例中,还包括显示模块;显示模块与中央处理器7通讯连接,显示模块用于显示生成的知识图谱F。
在一个可选的实施例中,三元组识别模块6包括第一识别匹配单元、第二识别匹配单元、第三识别匹配单元和确定单元;
第一识别匹配单元用于将所述知识文本内容片段中的至少一个关键词与信息A领域的全部结构化数据中的领域主题进行匹配,确定所述知识文本内容片段的领域主题;
第二识别匹配单元用于多个关键实体的实体信息D中的至少一个关键词按照预设的规则与对应的信息A领域的全部结构化数据包括的模型进行匹配,确定与多个关键实体的实体信息D匹配的模型以及多个关键实体的实体信息D的知识元实例;
第三识别匹配单元用于将多个关键实体的实体信息D中的至少一个关键词按照预设的规则与对应的模型的属性进行匹配,确定多个关键实体的实体信息D中知识元实例的属性;
确定单元,用于结合多个关键实体的实体信息D中知识元实例的属性,确定知识元实例之间的关联关系。
如图2所示,本发明提出的一种知识图谱构建***使用方法,具体步骤为:
S1、将信息A输入信息输入模块1;
S2、转换模块2将信息A转换为结构化数据B;
S3、提取模块3提取结构化数据B并将提取的数据化结构B发送给分词模块4;
S4、分词模块4用将数据化结构B进行分词并得到多个文本内容片段C;
S5、过滤模块5将得到的多个文本内容片段C进行过滤,并得到多个关键实体的实体信息D;过滤模块5将多个关键实体的实体信息D发送给中央处理器7;
S6、三元组识别模块6将多个关键实体的实体信息D分别与数据库模块9中的数据按照实体关系进行融化,生成新的数据化结构E;
S7、知识图谱生成和存储模块8将获得新的数据化结构E生成对应的知识图谱F,并将知识图谱F进行存储;
S8、显示模块对生成的知识图谱F进行显示。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (4)

1.一种知识图谱构建***,其特征在于,包括信息输入模块(1)、转换模块(2)、提取模块(3)、分词模块(4)、过滤模块(5)、三元组识别模块(6)、中央处理器(7)、知识图谱生成和存储模块(8)和数据库模块(9);
信息输入模块(1)与转换模块(2)通讯连接,信息输入模块(1)用于输入信息A,且信息输入模块(1)将信息A发送给转换模块(2);转换模块(2)用于将信息A转换为结构化数据B;
提取模块(3)与转换模块(2)通讯连接,且提取模块(3)与分词模块(4)通讯连接;提取模块(3)用于提取结构化数据B并将提取的数据化结构B发送给分词模块(4);分词模块(4)用于将数据化结构B进行分词并得到多个文本内容片段C;
过滤模块(5)与分词模块(4)通讯连接,且过滤模块(5)与中央处理器(7)通讯连接;过滤模块(5)用于将得到的多个文本内容片段C进行过滤,并得到多个关键实体的实体信息D;过滤模块(5)用于将多个关键实体的实体信息D发送给中央处理器(7);
数据库模块(9)与中央处理器(7)通讯连接,数据库模块(9)用于存储信息A领域的全部结构化数据;
三元组识别模块(6)与中央处理器(7)通讯连接,三元组识别模块(6)与数据库模块(9)通讯连接;三元组识别模块(6)用于将多个关键实体的实体信息D分别与数据库模块(9)中的数据按照实体关系进行融化,生成新的数据化结构E;三元组识别模块(6)包括第一识别匹配单元、第二识别匹配单元、第三识别匹配单元和确定单元;
第一识别匹配单元用于将所述文本内容片段中的至少一个关键词与信息A领域的全部结构化数据中的领域主题进行匹配,确定所述文本内容片段的领域主题;
第二识别匹配单元用于将多个关键实体的实体信息D中的至少一个关键词按照预设的规则与对应的信息A领域的全部结构化数据包括的模型进行匹配,确定与多个关键实体的实体信息D匹配的模型以及多个关键实体的实体信息D的知识元实例;
第三识别匹配单元用于将多个关键实体的实体信息D中的至少一个关键词按照预设的规则与对应的模型的属性进行匹配,确定多个关键实体的实体信息D中知识元实例的属性;
确定单元,用于结合多个关键实体的实体信息D中知识元实例的属性,确定知识元实例之间的关联关系;
知识图谱生成和存储模块(8)与中央处理器(7)通讯连接,知识图谱生成和存储模块(8)用于获得新的数据化结构E生成对应的知识图谱F,并将知识图谱F进行存储;
知识图谱构建***的使用方法,具体步骤为:
S1、将信息A输入信息输入模块(1);
S2、转换模块(2)将信息A转换为结构化数据B;
S3、提取模块(3)提取结构化数据B并将提取的数据化结构B发送给分词模块(4);
S4、分词模块(4)用将数据化结构B进行分词并得到多个文本内容片段C;
S5、过滤模块(5)将得到的多个文本内容片段C进行过滤,并得到多个关键实体的实体信息D;过滤模块(5)将多个关键实体的实体信息D发送给中央处理器(7);
S6、三元组识别模块(6)将多个关键实体的实体信息D分别与数据库模块(9)中的数据按照实体关系进行融化,生成新的数据化结构E;
S7、知识图谱生成和存储模块(8)将获得新的数据化结构E生成对应的知识图谱F,并将知识图谱F进行存储;
S8、显示模块对生成的知识图谱F进行显示。
2.根据权利要求1所述的一种知识图谱构建***,其特征在于,信息输入模块(1)输入的信息A包括结构化数据、非结构化的数据和半结构化的数据。
3.根据权利要求1所述的一种知识图谱构建***,其特征在于,还包括数据审查模块(10);数据审查模块(10)用于自动获取信息A领域的非结构化数据和半结构化数据,并将上述获得的非结构化数据和半结构化数据转化为结构化数据;数据审查模块(10)与数据库模块(9)通讯连接,数据审查模块(10)将获得的结构化数据发送给数据库模块(9)。
4.根据权利要求1所述的一种知识图谱构建***,其特征在于,还包括显示模块;显示模块与中央处理器(7)通讯连接,显示模块用于显示生成的知识图谱F。
CN201910280117.2A 2019-04-09 2019-04-09 一种知识图谱构建*** Active CN109977419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910280117.2A CN109977419B (zh) 2019-04-09 2019-04-09 一种知识图谱构建***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910280117.2A CN109977419B (zh) 2019-04-09 2019-04-09 一种知识图谱构建***

Publications (2)

Publication Number Publication Date
CN109977419A CN109977419A (zh) 2019-07-05
CN109977419B true CN109977419B (zh) 2023-04-07

Family

ID=67083639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910280117.2A Active CN109977419B (zh) 2019-04-09 2019-04-09 一种知识图谱构建***

Country Status (1)

Country Link
CN (1) CN109977419B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559704A (zh) * 2020-12-08 2021-03-26 北京航天云路有限公司 一种用户自定义配置的知识图谱生成工具

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694177A (zh) * 2017-04-06 2018-10-23 北大方正集团有限公司 知识图谱构建方法及***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777274B (zh) * 2016-06-16 2018-05-29 北京理工大学 一种中文旅游领域知识图谱构建方法及***
CN106168965B (zh) * 2016-07-01 2020-06-30 竹间智能科技(上海)有限公司 知识图谱构建***
CN108595494B (zh) * 2018-03-15 2022-05-20 腾讯科技(深圳)有限公司 答复信息的获取方法及装置
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694177A (zh) * 2017-04-06 2018-10-23 北大方正集团有限公司 知识图谱构建方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多种数据源的中文知识图谱构建方法研究;胡芳槐;《中国博士学位论文全文数据库》;20150515;正文第1-130页 *

Also Published As

Publication number Publication date
CN109977419A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN102426609B (zh) 一种基于MapReduce编程架构的索引生成方法和装置
CN105468605A (zh) 一种实体信息图谱生成方法及装置
CN111522927B (zh) 基于知识图谱的实体查询方法和装置
WO2019153685A1 (zh) 文本处理方法、装置、计算机设备和存储介质
CN111708938B (zh) 用于信息处理的方法、装置、电子设备和存储介质
US10223471B2 (en) Web pages processing
CN112560468B (zh) 气象预警文本处理方法、相关装置及计算机程序产品
CN108847957A (zh) 发现与呈现网络应用访问信息的方法和***
US20150278248A1 (en) Personal Information Management Service System
US20140280352A1 (en) Processing semi-structured data
US20150379112A1 (en) Creating an on-line job function ontology
CN114595686A (zh) 知识抽取方法、知识抽取模型的训练方法及装置
CN114218333A (zh) 一种地质知识图谱构建方法、装置、电子设备及存储介质
CN107391650B (zh) 一种文档的结构化拆分方法,装置及***
CN116245177A (zh) 地理环境知识图谱自动化构建方法及***、可读存储介质
CN109977419B (zh) 一种知识图谱构建***
KR20090115618A (ko) 관심정보 관리 및 통합 방법과 이를 수행하는 시스템
CN113609100B (zh) 数据存储方法、数据查询方法、装置及电子设备
CN114064923A (zh) 数据处理方法、装置、电子设备和存储介质
EP3564833B1 (en) Method and device for identifying main picture in web page
CN108846134A (zh) 一种基于网络爬虫的运维方案推荐***及方法
CN116431828A (zh) 一种基于神经网络技术构建的电网中台数据资产知识图谱数据库的构建方法
CN114547477A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN114281884A (zh) 知识图谱的主题知识子模型提取方法
CN113407678A (zh) 知识图谱构建方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220909

Address after: 361000 units 1702 and 1703, No. 59, Chengyi North Street, phase III, software park, Xiamen, Fujian

Applicant after: XIAMEN USEEAR INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Unit 1701, unit 1704, No. 59, Chengyi North Street, phase III, software park, Xiamen City, Fujian Province, 361000

Applicant before: FUJIAN QIDIAN SPACE-TIME DIGITAL TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant