CN115203435A - 基于知识图谱的实体关系生成方法及数据查询方法 - Google Patents

基于知识图谱的实体关系生成方法及数据查询方法 Download PDF

Info

Publication number
CN115203435A
CN115203435A CN202210828302.2A CN202210828302A CN115203435A CN 115203435 A CN115203435 A CN 115203435A CN 202210828302 A CN202210828302 A CN 202210828302A CN 115203435 A CN115203435 A CN 115203435A
Authority
CN
China
Prior art keywords
data
metadata
relationship
data tables
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210828302.2A
Other languages
English (en)
Inventor
王明
王天振
陈建欣
李印
庞艳蓓
付大超
李飞飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Cloud Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Cloud Computing Ltd filed Critical Alibaba Cloud Computing Ltd
Priority to CN202210828302.2A priority Critical patent/CN115203435A/zh
Publication of CN115203435A publication Critical patent/CN115203435A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种基于知识图谱的实体关系生成方法、数据查询方法、计算设备以及计算机存储介质。其中,基于知识图谱的实体关系生成方法包括:获取至少两张数据表的元数据;解析所述元数据,确定所述至少两张数据表的数据结构,以及所述至少两张数据表的关联关系;根据所述数据结构以及所述关联关系生成知识图谱;对所述知识图谱进行可视化渲染,生成实体关系图。本申请实施例提供的技术方案可以利用知识图谱的领域知识的推理能力提取获得数据之间的关联关系,然后再根据知识图谱中展示的数据之间丰富的关联关系渲染生成实体关系图。

Description

基于知识图谱的实体关系生成方法及数据查询方法
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种基于知识图谱的实体关系生成方法、数据查询方法、计算设备及计算机存储介质。
背景技术
随着数据管理***所管理和存储的数据日益繁杂,通常需要利用实体关系图来表示数据管理***中所存储的数据表及字段的关联关系,以便于运维及开发人员直观的感受到数据管理***所维护的业务之间的关联关系。
相关技术中,通常依赖于数据表中建立的外键关系生成实体关系图。具体而言,相关技术中的数据库设计范式中,数据库表包括主键和外键,主键用于唯一确定该数据表中的一行数据,而该数据表中表示被另一数据表所引用的字段则称为外键。基于数据表中的外键,即可确定该数据表与另一数据表具有关联关系,从而可以基于该关联关系生成实体关系图。
然而,由于相关技术中在数据库表设计的外键会对数据管理***的查询性能造成影响,因而,在具有高并发读写的场景下,通常会对数据管理***进行冗余数据设计,即数据库表中不再设计有外键。
由于数据库表中不再有外键,因而基于相关技术中依赖外键关系生成实体关系图的方法不再适用,如何提出一种新的实体关系图生成方法成为亟待解决的问题。
发明内容
本申请实施例提供一种基于知识图谱的实体关系生成方法、数据查询方法、装置、计算设备及计算机存储介质。
第一方面,本申请实施例中提供了一种基于知识图谱的实体关系生成方法,包括:
获取至少两张数据表的元数据;
解析所述元数据,确定所述至少两张数据表的数据结构,以及所述至少两张数据表的关联关系;
根据所述数据结构以及所述关联关系生成知识图谱;
对所述知识图谱进行可视化渲染,生成实体关系图。
第二方面,本申请实施例中提供了一种数据查询方法,包括:
接收数据查询指令,所述数据查询指令携带有目标字段的字段标识以及所述字段标识所属数据表的表标识;
基于所述表标识确定与所述数据表相对应的实体关系图,所述实体关系图通过对知识图谱进行可视化渲染而生成,所述知识图谱根据对从数据管理***中获取的元数据进行解析而确定的至少两张数据表的数据结构,以及所述至少两张数据表的关联关系生成,所述实体关系图包括预先生成的至少两个实体组,以及所述至少两个实体组的关联关系,每个实体组对应一张数据表以及所述数据表包含的字段;
将所述字段标识作为索引信息针对所述实体关系图进行索引操作,获取与所述字段标识相关联的索引数据;
输出所述索引数据。
第三方面,本申请实施例中提供了一种数据处理装置,包括:
元数据获取模块,用于获取至少两张数据表的元数据;
元数据解析模块,用于解析所述元数据,确定所述至少两张数据表的数据结构,以及所述至少两张数据表的关联关系;
知识图谱构建模块,用于根据所述数据结构以及所述关联关系生成知识图谱;
渲染模块,用于对所述知识图谱进行可视化渲染,生成实体关系图。
第四方面,本申请实施例中提供了一种数据查询装置,包括:
指令接收模块,用于接收数据查询指令,所述数据查询指令携带有目标字段的字段标识以及所述字段标识所属数据表的表标识;
图确定模块,用于基于所述表标识确定与所述数据表相对应的实体关系图,所述实体关系图通过对知识图谱进行可视化渲染而生成,所述知识图谱根据对从数据管理***中获取的元数据进行解析而确定的至少两张数据表的数据结构,以及所述至少两张数据表的关联关系生成,所述实体关系图包括预先生成的至少两个实体组,以及所述至少两个实体组的关联关系,每个实体组对应一张数据表以及所述数据表包含的字段;
索引模块,用于将所述字段标识作为索引信息针对所述实体关系图进行索引操作,获取与所述字段标识相关联的索引数据;
输出模块,用于输出所述索引数据。
本申请实施例通过采用获取至少两张数据表的元数据;解析所述元数据,确定所述至少两张数据表的数据结构,以及所述至少两张数据表的关联关系;根据所述数据结构以及所述关联关系生成知识图谱;对所述知识图谱进行可视化渲染,生成实体关系图的技术方案,由于首先利用数据管理***中存储的数据生成知识图谱,从而可以利用知识图谱的领域知识的推理能力提取获得数据之间的关联关系,然后再根据知识图谱中展示的数据之间丰富的关联关系渲染生成实体关系图,使得在不依赖外键关系的情况下,生成了实体关系图。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了本发明一个实施例提供的一种基于知识图谱的实体关系生成方法的流程图;
图2示意性示出了本发明实施例中构建知识图谱的示意图;
图3示意性示出了本发明实施例构建生成的实体关系图的示意图;
图4示意性示出了本发明另一实施例提供的知识图谱的示意图;
图5示意性示出了本发明另一实施例提供的实体关系图的示意图;
图6示意性示出了本发明一个实施例提供的一种数据查询方法的流程图;
图7示意性示出了本发明一个实施例提供的一种数据处理装置的框图;
图8示意性示出了本发明一个实施例提供的一种数据查询装置的框图;
图9示意性示出了本发明一个实施例提供的一种计算设备的框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
数据资产是个人或企业拥有或控制的能够带来经济利益的数据集合资源,数据资产通常通过数据管理***加以管理和维护。随着数据管理***管理的数据资产的日益丰富,通常利用实体关系图来表示数据资产中实体之间的关联关系,或者业务之间的关联关系。
相关技术中,通常依赖于数据表中的外键关系生成实体关系图。具体而言,相关技术中的数据库设计范式中,数据库表包括主键和外键,主键用于唯一确定该数据表,而该数据表中表示被另一数据表所引用的字段则称为外键。基于数据表中的外键,即可确定该数据表与另一数据表具有关联关系,从而可以基于该关联关系生成生成实体关系图。
然而,由于相关技术中在数据库表设计的外键会对数据管理***的查询性能造成影响,因而,在具有高并发读写的场景下,通常会对数据管理***进行冗余数据设计,即数据库表中不再设计有外键。
由于数据库表中不再有外键,利用相关技术中依赖于外键关系生成的实体关系图将不再能清楚的显示出数据资产中实体之间的关联关系,或者业务之间的关联关系。
为了至少部分地解决相关技术中存在的技术问题,本发明实施例提供了一种基于知识图谱的实体关系生成方法,通过采用获取至少两张数据表的元数据;解析所述元数据,确定所述至少两张数据表的数据结构,以及所述至少两张数据表的关联关系;根据所述数据结构以及所述关联关系生成知识图谱;对所述知识图谱进行可视化渲染,生成实体关系图的技术方案,由于首先利用数据管理***中存储的数据生成知识图谱,从而可以利用知识图谱的领域知识的推理能力提取获得数据之间的关联关系,然后再根据知识图谱中展示的数据之间丰富的关联关系渲染生成实体关系图,使得在不依赖外键关系的情况下,生成了实体关系图。
图1示意性示出了本发明一个实施例提供的一种基于知识图谱的实体关系生成方法的流程图,该基于知识图谱的实体关系生成方法可以包括以下步骤:
101,获取至少两张数据表的元数据。
102,解析元数据,确定至少两张数据表的数据结构,以及至少两张数据表的关联关系。
103,根据数据结构以及关联关系生成知识图谱。
104,对知识图谱进行可视化渲染,生成实体关系图。
根据本发明的实施例,至少两张数据表的元数据可以从用于管理特定业务场景的业务数据的数据管理***中获取,从而可以生成针对该业务场景的实体关系图,但不限于此,还可以从其它具有数据存储功能的数据库中获取至少两张数据表的元数据,其中,该至少两张数据表的元数据可以从同一数据库中获取,也可以从至少两个数据库中分别获取。
根据本发明的实施例,数据管理***可以用于保存数据资产,数据资产可以通过数据表的形式进行存储。数据管理***中还可以保存有与数据表相关联的元数据。
根据本发明的实施例,元数据可以用于描述数据表的数据结构以及该数据表与其他数据表之间的关联关系。
根据本发明的实施例,在从数据管理***中分别获取至少两张数据表的元数据之前,可以接收实体关系图生成指令,实体关系图生成指令中可以携带有用于生成实体关系图的至少两张数据表的表标识。获取到实体关系图生成指令后,可以在数据管理***中获取实体关系图生成指令所指示的至少两张数据表。
根据本发明的实施例,在确定用于生成实体关系图的至少两张数据表后,可以从数据管理***中基于至少两张数据表的表标识,确定与该至少两张数据表相关联的元数据。
根据本发明的实施例,获取到与至少两张数据表分别对应的元数据后,可以将元数据输入到图数据库中,使得图数据库对元数据进行解析,以确定至少两张数据表的数据结构以及至少两张数据表的关联关系,并根据数据结构以及关联关系生成知识图谱。
根据本发明的实施例,通过利用知识图谱对数据知识的抽取能力,可以提炼出数据知识中包括的实体,以及实体之间的关系,并将实体以及实体之间的关系用图的形式进行展示。
根据本发明的实施例,生成知识图谱后,可以对知识图谱进行可视化渲染,即可将知识图谱转换成实体关系图。
在本发明的实施例中,通过利用知识图谱对数据知识的抽取能力,可以从元数据中抽取、提炼出至少两张数据表的数据结构以及丰富的关联关系,从而,可以直接对生成的知识图谱进行可视化渲染,而无需依赖于数据表中存储的外键关系即可生成实体关系图。
根据本发明的实施例,解析元数据,确定至少两张数据表的数据结构,以及至少两张数据表的关联关系具体可以实现为:
解析元数据,确定至少两张数据表分别包含的字段以及不同字段之间的关联关系。
根据本发明的实施例,元数据为描述数据的数据,可以用于描述数据的数据架构以及该数据与其他数据之间的关联关系。
根据本发明的实施例,数据架构可以指该数据表中存储有哪些字段,以及该数据表存储于哪个数据库中。
根据本发明的实施例,通过对元数据进行解析,即可确定数据表中都存储有哪些字段以及该数据表中的字段与其他数据表中的字段之间的关联关系。
根据本发明的实施例,根据数据结构以及关联关系生成知识图谱具体可以实现为:
将至少两张数据表以及至少两张数据表包含的字段分别作为节点;
根据不同字段之间的关联关系及不同字段与至少两张数据表的包含关系,确定不同节点之间的边,以生成知识图谱。
根据本发明的实施例,可以首先在初始知识图谱中,构建与至少两张数据表对应的节点,以及与多个字段分别对应的节点。
根据本发明的实施例,在构建生成节点后,可以保存各个节点与数据表或字段之间的映射关系。
根据本发明的实施例,构建生成节点后,可以首先将表征数据表的节点与该数据表所包含的至少一个字段相对应的节点通过边相连,该边表征数据表与字段之间的包含关系。
根据本发明的实施例,还可以获取至少两张数据表分别包含的字段之间的关联关系,并将具有关联关系的至少两个字段对应的节点之间通过边相连。
根据本发明的实施例,将至少两张数据表以及至少两张数据表包含的字段分别作为节点具体可以实现为:
将至少两张数据表分别作为主节点,以及至少两张数据表包含的字段作为子节点。
根据本发明的实施例,以下表1和表2分别表示从数据管理***中获取的数据表。
表1
字段名 字段说明
s_name 商品名
s_number 编号
id 订单编号
price 价格
表2
字段名 字段说明
s_name 商品名
c_name 仓库名
c_city 仓库城市
c_address 仓库地址
如表1和表2所示,表1可以为订单表,表2可以为仓库资料表,表1和表2各有4个字段。在表1中,该订单表对应的订单为针对商品名为s_name的商品所下的订单。在表2中,该仓库资料表为存储有s_name商品的仓库的资料表。表1中的s_name和表2中的s_name代表同一商品,因而,该两个字段具有关联关系。
图2示意性示出了本发明实施例中构建知识图谱的示意图。
在图2中,沿用以上实施例中示出的表1及表2。
在本实施例中,可以首先在初始知识图谱中构建与表1相对应的主节点210,然后,获取表1包含的多个字段,分别构建与多个字段相对应的子节点211、子节点212、子节点213、子节点214。最后,可以基于表1与多个字段的包含关系,将子节点211、子节点212、子节点213、子节点214与主节点210之间通过边相连。
参照对表1的构建,可以在初始知识图谱中构建与表2相对应的主节点220,以及与表2包含的多个字段相对应的子节点221、子节点222、子节点223、子节点224,以及主节点220与子节点221、子节点222、子节点223、子节点224之间的边。
节点构建完成后,可以获取表1包含的多个字段以及表2包含的多个字段之间的关联关系。
由于表1中的s_name字段与表2中的s_name字段具有关联关系,则可以将与表1中的s_name对应的子节点211,以及与表2中的s_name对应的子节点221通过边相连,生成知识图谱。
根据本发明的实施例,对知识图谱进行可视化渲染,生成实体关系图具体可以实现为:
基于知识图谱中的任一个主节点以及其关联的子节点,构建实体;
基于知识图谱中不同子节点的边,构建不同实体的关联关系,以生成实体关系图。
根据本发明的实施例,可以基于知识图谱中的任意一个主节点以及和其通过边相连的子节点,生成实体关系图中的实体。
根据本发明的实施例,基于知识图谱中的任一个主节点以及其关联的子节点,构建实体具体可以实现为:
从知识图谱中获取至少两个节点簇,每个节点簇包括一个主节点以及与主节点相连的子节点;
对至少两个节点簇进行可视化渲染,生成与至少两个节点簇分别对应的实体。
在本实施例中,可以沿用上述图2示出的知识图谱。
在图2中,主节点210以及子节点211、子节点212、子节点213、子节点214可以组成一个节点簇。在获取到该节点簇后,可以对该节点簇进行可视化渲染,生成实体关系图中的实体。
继而,可以获取由主节点220以及子节点221、子节点222、子节点223、子节点224组成的节点簇,并对该节点簇进行可视化渲染,生成实体关系图中的另一实体。
根据本发明的实施例,构建生成实体关系图中的实体后,可以基于知识图谱中所表示的子节点之间的边,构建不同实体之间的连接关系,生成实体关系图。
图3示意性示出了本发明实施例构建生成的实体关系图的示意图。
本发明实施例中示出的实体关系图可以为对图2示出的知识图谱进行可视化渲染而生成的。
如图3所示,共包括两个实体,即实体310以及实体320,其中,实体310可以与表1对应,311可以表示表名,312、313、314、315可以表示该实体包含的多个字段的字段名;实体320可以与表2对应,321可以表示表名,322、323、324、325可以表示该实体包含的多个字段的字段名。
在本发明的实施例中,实体310可以对由主节点210以及多个子节点211、212、213、214组成的节点簇进行可视化渲染生成,实体320可以对由主节点220以及多个子节点221、222、223、224组成的节点簇进行可视化渲染生成。
其中,实体310和实体320之间通过边相连,该边表示实体310中包含的字段与实体320包含的字段具有关联关系。
需要说明的是,为了便于叙述,本发明实施例对数据表包含的字段以及字段之间的关联关系进行了简化,实际应用中,通过将数据表的元数据输入图数据库中对数据表的数据结构以及关联关系进行解析,可以生成具有丰富边关系的知识图谱。进而,根据知识图谱生成的实体关系图中,也可以显示出丰富的字段之间的关联关系。
图4示意性示出了本发明另一实施例提供的知识图谱的示意图。
如图4所示,该知识图谱中包括多个节点,并且节点之间具有丰富的边关系。例如,方框401框住的多个节点中,包括主节点401以及多个子节点402,即方框框住的该多个节点组成一个节点簇。与此类似的,图4中还包括多个不同的节点簇。
图5示意性示出了本发明另一实施例提供的实体关系图的示意图。
图5示出的实体关系图可以对图4示出的知识图谱进行可视化渲染而生成。
如图5所示,实体501、实体502、实体503、实体504、实体505与实体506均具有关联关系,并且,实体503和实体504与实体506具有较多的关联关系,因而可以得出,与实体503以及实体504分别对应的业务与实体506对应的业务之间的联系较为密切。
从图5可以看出,利用本发明实施例提供的基于知识图谱的实体关系生成方法生成的实体关系图,在不依赖外键关系的前提下,可以展示出数据管理***中存储的数据表以及字段之间的丰富的关联关系。
根据本发明的实施例,元数据包括物理元数据以及关系元数据。
根据本发明的实施例,解析元数据,确定至少两张数据表分别包含的字段以及不同字段之间的关联关系具体可以实现为:
解析物理元数据,确定至少两张数据表的数据结构。
根据数据结构,确定至少两张数据表分别包括的字段;
根据本发明的实施例,物理元数据例如可以包括实例元数据、库元数据、表元数据、列元数据、索引元数据等。
解析关系元数据,确定至少两张数据表对应的不同字段之间的关联关系。
根据本发明的实施例,关系元数据包括结构化查询语句。
根据本发明的实施例,解析关系元数据,确定至少两张数据表中包括的字段之间的关联关系具体可以实现为:
解析结构化查询语句,确定至少两张数据表中包括的字段之间的关联关系。
根据本发明的实施例,结构化查询语言对数据管理***进行操作的语言。
根据本发明的实施例,通过对结构化查询语句进行解析,可以获取用户在历史时期内对数据管理***进行操作时,所涉及的对至少两张数据表中的字段的相关的操作,从而,基于此可以确定至少两张数据表中包括的字段之间的关联关系。
其中,历史操作中所涉及的对至少两张数据表中的字段的相关的操作可用于表征同一业务数据表或不同业务数据表中不同字段间的历史操作关系,包括但不限于用户对至少两张数据表进行关联查询。因此,可根据数据管理***中存储的、与各业务数据表相关的历史操作数据,确定各业务数据表中不同字段间的关联关系。
例如,用户对第一业务数据表和第二业务数据表中的指定字段进行了关联查询,即用户在查询数据时,所需要的数据不只在第一业务数据表或者第二业务数据表中,而是在第一业务数据表和第二业务数据表中。此时,需要同时直接地依赖第一业务数据表和第二业务数据表中的相关字段进行数据查询,或者间接地依赖第一业务数据表和第二业务数据表中的相关字段进行数据查询,从而,可以确定第一业务数据表和第二业务数据表基于该相关字段具有关联关系。
根据本发明的实施例,关系元数据通过以下操作获取:
分别获取至少两张数据表的表标识;
基于表标识,从数据管理***中存储的多条结构化查询语句中获取与两张数据表相关的目标结构化查询语句;
根据目标结构化查询语句确定关系元数据。
根据本发明的实施例,数据管理***可以对历史时期内,用户所执行的结构化查询语句进行存储。
根据本发明的实施例,在对实体关系图生成指令进行解析后,可以获取实体关系图生成指令所指示的用于生成实体关系图的至少两张数据表的表标识。从而基于获取的表标识,可以对数据管理***所存储的多个历史结构化查询语句进行遍历查询,确定与该表标识相匹配的至少一个目标结构化查询语句。
根据本发明的另一实施例,在基于至少两个业务数据表中包含的字段构建初始知识图谱后,还可获取数据管理***中存储的各业务数据表中的字段信息,并通过机器学习的方式对字段信息进行知识抽取,并将抽取结果确定为关系元数据。具体可将字段信息输入预先训练完成的文本处理模型进行语义识别,以根据语义识别结果对各业务数据表中的字段信息进行相似度计算,然后根据相似度计算结果,确定相似度大于预设相似度阈值的两个字段间存在关联关系。
根据本发明的实施例,关系元数据可以通过以下操作获取:
接收用户输入的至少两张数据表中包含的字段的关系描述信息;
将关系描述信息作为关系元数据。
根据本发明的实施例,在从数据管理***中存储的数据中挖掘至少两张数据表的关联关系的基础上,还可以获取用户输入的至少两张数据表中包含的字段的关系描述信息,该关系描述信息可以是用户基于业务或操作经验而确定的至少两张数据表中包含的字段隐含存在的关系信息。在获取用户输入的关系描述信息后,可以将关系描述信息作为关系元数据以丰富基于关系元数据构建的知识图谱中的边关系,从而增加知识图谱对至少两张数据表的知识描绘的准确度。
根据本发明的实施例,根据目标结构化查询语句确定关系元数据具体可以实现为:
确定目标结构化查询语句所包含的至少两张数据表的函数计算关系;
将函数计算关系确定为关系元数据。
根据本发明的另一实施例,根据目标结构化查询语句确定关系元数据具体可以实现为:
确定目标结构化查询语句所包含的至少两张数据表的连接关系;
将连接关系确定为关系元数据。
根据本发明的另一实施例,根据目标结构化查询语句确定关系元数据具体可以实现为:
确定目标结构化查询语句所包含的至少两张数据表的ETL(数据抽取、数据的清洗转换、数据的加载)加工关系;
将ETL加工关系确定为关系元数据。
根据本发明的实施例,关系元数据通过以下操作获取:
对至少两张数据表进行模式匹配运算,生成匹配结果;
将匹配结果确定为关系元数据。
根据本发明的实施例,可以对至少两张数据表中包含的字段进行相识度匹配,匹配计算出至少两个数据表中相识度大于预设阈值的至少两个字段,并确定该至少两个字段具有关联关系。
图6示意性示出了本发明一个实施例提供的一种数据查询方法的流程图,该数据查询方法可以包括以下步骤:
601,接收数据查询指令,数据查询指令携带有目标字段的字段标识以及字段标识所属数据表的表标识;
602,基于表标识确定与数据表相对应的实体关系图,实体关系图通过对知识图谱进行可视化渲染而生成,知识图谱根据对从数据管理***中获取的元数据进行解析而确定的至少两张数据表的数据结构,以及至少两张数据表的关联关系生成,实体关系图包括预先生成的至少两个实体组,以及至少两个实体组的关联关系,每个实体组对应一张数据表以及数据表包含的字段;
603,将字段标识作为索引信息针对实体关系图进行索引操作,获取与字段标识相关联的索引数据;
604,输出索引数据。
生成实体关系图的具体步骤可以参照图1示出的基于知识图谱的实体关系生成方法,在本实施例中不再赘述。
根据本发明的实施例,在构建生成实体关系图后,实体关系图即可清晰的展示出数据管理***中存储的数据表所包含的字段之间的关联关系,因而,在接收到数据查询指令后,通过确定与数据查询指令所携带的表标识对应的实体关系图,即可通过索引实体关系图的方式获取到与数据查询指令所指示的数据表相关联的索引数据。
图7示意性示出了本发明一个实施例提供的一种数据处理装置的框图,该数据处理装置700可以包括元数据获取模块701、元数据解析模块702、知识图谱构建模块703以及渲染模块704。
元数据获取模块701,用于获取至少两张数据表的元数据;
元数据解析模块702,用于解析元数据,确定至少两张数据表的数据结构,以及至少两张数据表的关联关系;
知识图谱构建模块703,用于根据数据结构以及关联关系生成知识图谱;
渲染模块704,用于对知识图谱进行可视化渲染,生成实体关系图。
根据本发明的实施例,元数据解析模块702具体用于:
解析元数据,确定至少两张数据表分别包含的字段以及不同字段之间的关联关系。
根据本发明的实施例,知识图谱构建模块703具体用于:
将至少两张数据表以及至少两张数据表包含的字段分别作为节点;
根据不同字段之间的关联关系及不同字段与至少两张数据表的包含关系,确定不同节点之间的边,以生成知识图谱。
根据本发明的实施例,知识图谱构建模块703具体用于:
将至少两张数据表分别作为主节点,以及至少两张数据表包含的字段作为子节点。
根据本发明的实施例,渲染模块704具体用于:
基于知识图谱中的任一个主节点以及其关联的子节点,构建实体;
基于知识图谱中不同子节点的边,构建不同实体的关联关系,以生成实体关系图。
根据本发明的实施例,渲染模块704具体用于:
从知识图谱中获取至少两个节点簇,每个节点簇包括一个主节点以及与主节点相连的子节点;
对至少两个节点簇进行可视化渲染,生成与至少两个节点簇分别对应的实体。
根据本发明的实施例,元数据包括物理元数据以及关系元数据;
根据本发明的实施例,元数据解析模块702具体用于:
解析物理元数据,确定至少两张数据表的数据结构;
根据数据结构,确定至少两张数据表分别包括的字段;
解析关系元数据,确定至少两张数据表对应的不同字段之间的关联关系。
根据本发明的实施例,关系元数据包括结构化查询语句;
根据本发明的实施例,元数据解析模块702具体用于:
解析结构化查询语句,确定至少两张数据表中包括的字段之间的关联关系。
根据本发明的实施例,数据处理装置700还包括元数据获取模块,具体用于:
分别获取至少两张数据表的表标识;
基于表标识,从数据管理***中存储的多条结构化查询语句中获取与两张数据表相关的目标结构化查询语句;
根据目标结构化查询语句确定关系元数据。
根据本发明的实施例,数据处理装置700还包括元数据获取模块,具体用于:
对至少两张数据表进行模式匹配运算,生成匹配结果;
将匹配结果确定为关系元数据。
图7的数据处理装置可以执行图1所示实施例的基于知识图谱的实体关系生成方法,其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8示意性示出了本发明一个实施例提供的一种数据查询装置的框图,该数据查询装置800可以包括指令接收模块801、图确定模块802、索引模块803以及输出模块804。
指令接收模块801,用于接收数据查询指令,数据查询指令携带有目标字段的字段标识以及字段标识所属数据表的表标识;
图确定模块802,用于基于表标识确定与数据表相对应的实体关系图,实体关系图通过对知识图谱进行可视化渲染而生成,知识图谱根据对从数据管理***中获取的元数据进行解析而确定的至少两张数据表的数据结构,以及至少两张数据表的关联关系生成,实体关系图包括预先生成的至少两个实体组,以及至少两个实体组的关联关系,每个实体组对应一张数据表以及数据表包含的字段;
索引模块803,用于将字段标识作为索引信息针对实体关系图进行索引操作,获取与字段标识相关联的索引数据;
输出模块804,用于输出索引数据。
图8所述的数据查询装置可以执行图6所示实施例所述的数据查询方法,其实现原理和技术效果不再赘述。对于上述实施例中的数据查询装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,本发明实施例提供的数据处理装置、数据查询装置可以实现为计算设备,如图9所示,该计算设备可以包括存储组件901以及处理组件902;
存储组件901存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件902调用执行,用以实现本发明实施例提供的基于知识图谱的实体关系生成方法和/或数据查询方法。
当然,计算设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。输入/输出接口为处理组件和***接口模块之间提供接口,上述***接口模块可以是输出设备、输入设备等。通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。
其中,该计算设备可以为物理设备或者云计算平台提供的弹性计算主机等,此时计算设备即可以是指云服务器,上述处理组件、存储组件等可以是从云计算平台租用或购买的基础服务器资源。
当计算设备为物理设备时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。
实际应用中,该计算设备可以具体部署消息队列***中的节点,实现为消息队列***中的生产者、消费者、中转服务端或命名服务端等。
本发明实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时可以实现本发明实施例提供的基于知识图谱的实体关系生成方法和/或数据查询方法。
本发明实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被计算机执行时可以实现本发明实施例提供的基于知识图谱的实体关系生成方法和/或数据查询方法。
其中,前文相应实施例中的处理组件可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
存储组件被配置为存储各种类型的数据以支持在设备中操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种基于知识图谱的实体关系生成方法,包括:
获取至少两张数据表的元数据;
解析所述元数据,确定所述至少两张数据表的数据结构,以及所述至少两张数据表的关联关系;
根据所述数据结构以及所述关联关系生成知识图谱;
对所述知识图谱进行可视化渲染,生成实体关系图。
2.根据权利要求1所述的方法,所述解析所述元数据,确定所述至少两张数据表的数据结构,以及所述至少两张数据表的关联关系包括:
解析所述元数据,确定所述至少两张数据表分别包含的字段以及不同字段之间的关联关系。
3.根据权利要求2所述的方法,所述根据所述数据结构以及所述关联关系生成知识图谱包括:
将所述至少两张数据表以及所述至少两张数据表包含的字段分别作为节点;
根据不同字段之间的关联关系及不同字段与所述至少两张数据表的包含关系,确定不同节点之间的边,以生成所述知识图谱。
4.根据权利要求3所述的方法,所述将所述至少两张数据表以及所述至少两张数据表包含的字段分别作为节点包括:
将所述至少两张数据表分别作为主节点,以及所述至少两张数据表包含的字段作为子节点。
5.根据权利要求4所述的方法,所述对所述知识图谱进行可视化渲染,生成实体关系图包括:
基于所述知识图谱中的任一个主节点以及其关联的子节点,构建实体;
基于所述知识图谱中不同子节点的边,构建不同实体的关联关系,以生成所述实体关系图。
6.根据权利要求5所述的方法,所述基于所述知识图谱中的任一个主节点以及其关联的子节点,构建实体包括:
从所述知识图谱中获取至少两个节点簇,每个所述节点簇包括一个主节点以及与所述主节点相连的子节点;
对所述至少两个节点簇进行可视化渲染,生成与所述至少两个节点簇分别对应的实体。
7.根据权利要求2所述的方法,所述元数据包括物理元数据以及关系元数据;
所述解析所述元数据,确定所述至少两张数据表分别包含的字段以及不同字段之间的关联关系包括:
解析所述物理元数据,确定所述至少两张数据表的数据结构;
根据所述数据结构,确定所述至少两张数据表分别包括的字段;
解析所述关系元数据,确定所述至少两张数据表对应的不同字段之间的关联关系。
8.根据权利要求7所述的方法,所述关系元数据包括结构化查询语句;
所述解析所述关系元数据,确定所述至少两张数据表中包括的所述字段之间的关联关系包括:
解析所述结构化查询语句,确定所述至少两张数据表中包括的所述字段之间的关联关系。
9.根据权利要求7所述的方法,所述关系元数据通过以下操作获取:
分别获取所述至少两张数据表的表标识;
基于所述表标识,从所述数据管理***中存储的多条结构化查询语句中获取与所述两张数据表相关的目标结构化查询语句;
根据所述目标结构化查询语句确定所述关系元数据。
10.根据权利要求7所述的方法,所述关系元数据通过以下操作获取:
对所述至少两张数据表进行模式匹配运算,生成匹配结果;
将所述匹配结果确定为所述关系元数据。
11.根据权利要求7所述的方法,所述方法还包括:
接收用户输入的所述至少两张数据表中包含的字段的关系描述信息;
将所述关系描述信息作为所述关系元数据。
12.一种数据查询方法,包括:
接收数据查询指令,所述数据查询指令携带有目标字段的字段标识以及所述字段标识所属数据表的表标识;
基于所述表标识确定与所述数据表相对应的实体关系图,所述实体关系图通过对知识图谱进行可视化渲染而生成,所述知识图谱根据对从数据管理***中获取的元数据进行解析而确定的至少两张数据表的数据结构,以及所述至少两张数据表的关联关系生成,所述实体关系图包括预先生成的至少两个实体组,以及所述至少两个实体组的关联关系,每个实体组对应一张数据表以及所述数据表包含的字段;
将所述字段标识作为索引信息针对所述实体关系图进行索引操作,获取与所述字段标识相关联的索引数据;
输出所述索引数据。
13.一种计算设备,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行,实现如权利要求1至11任一项所述的基于知识图谱的实体关系生成方法,或者实现如权利要求12所述的数据查询方法。
14.一种计算机存储介质,存储有计算机程序,所述计算程序被计算机执行时,实现如权利要求1至11任一项所述的基于知识图谱的实体关系生成方法,或者实现如权利要求12所述的数据查询方法。
CN202210828302.2A 2022-07-13 2022-07-13 基于知识图谱的实体关系生成方法及数据查询方法 Pending CN115203435A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210828302.2A CN115203435A (zh) 2022-07-13 2022-07-13 基于知识图谱的实体关系生成方法及数据查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210828302.2A CN115203435A (zh) 2022-07-13 2022-07-13 基于知识图谱的实体关系生成方法及数据查询方法

Publications (1)

Publication Number Publication Date
CN115203435A true CN115203435A (zh) 2022-10-18

Family

ID=83581504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210828302.2A Pending CN115203435A (zh) 2022-07-13 2022-07-13 基于知识图谱的实体关系生成方法及数据查询方法

Country Status (1)

Country Link
CN (1) CN115203435A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028597A (zh) * 2023-03-27 2023-04-28 南京燧坤智能科技有限公司 对象检索方法、装置、非易失性存储介质及计算机设备
CN116431104A (zh) * 2022-12-02 2023-07-14 东莞盟大集团有限公司 基于区块链技术标识解析应用的低代码开发方法
WO2024098517A1 (zh) * 2022-11-07 2024-05-16 中电科大数据研究院有限公司 一种图谱数据的处理方法、装置以及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024098517A1 (zh) * 2022-11-07 2024-05-16 中电科大数据研究院有限公司 一种图谱数据的处理方法、装置以及存储介质
CN116431104A (zh) * 2022-12-02 2023-07-14 东莞盟大集团有限公司 基于区块链技术标识解析应用的低代码开发方法
CN116028597A (zh) * 2023-03-27 2023-04-28 南京燧坤智能科技有限公司 对象检索方法、装置、非易失性存储介质及计算机设备
CN116028597B (zh) * 2023-03-27 2023-07-21 南京燧坤智能科技有限公司 对象检索方法、装置、非易失性存储介质及计算机设备

Similar Documents

Publication Publication Date Title
CN111061833B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
CN115203435A (zh) 基于知识图谱的实体关系生成方法及数据查询方法
CN111159184B (zh) 元数据追溯方法、装置及服务器
WO2021068547A1 (zh) 日志模板提取方法及装置
US11042581B2 (en) Unstructured data clustering of information technology service delivery actions
US20210374195A1 (en) Information processing method, electronic device and storage medium
US9305076B1 (en) Flattening a cluster hierarchy tree to filter documents
CN113946690A (zh) 潜在客户挖掘方法、装置、电子设备及存储介质
CN112506486A (zh) 搜索***建立方法、装置、电子设备及可读存储介质
US11741379B2 (en) Automated resolution of over and under-specification in a knowledge graph
CN114461644A (zh) 一种数据采集方法、装置、电子设备及存储介质
Le et al. Multi-abstraction concern localization
CN115858513A (zh) 数据治理方法、装置、计算机设备和存储介质
CN110737432A (zh) 一种基于词根表的脚本辅助设计方法及装置
CN111444368B (zh) 构建用户画像的方法、装置、计算机设备及存储介质
CN113760891A (zh) 一种数据表的生成方法、装置、设备和存储介质
CN115495587A (zh) 一种基于知识图谱的告警分析方法及装置
CN109800147A (zh) 一种测试案例生成方法及终端设备
CN115221337A (zh) 数据编织处理方法、装置、电子设备及可读存储介质
CN113868138A (zh) 测试数据的获取方法、***、设备及存储介质
CN110837365A (zh) 一种基于词根表的脚本辅助设计方法及装置
CN116483735B (zh) 一种代码变更的影响分析方法、装置、存储介质及设备
CN117389908B (zh) 接口自动化测试用例的依赖关系分析方法、***及介质
CN109871318B (zh) 一种基于软件运行网络的关键类识别方法
Li et al. A Vectorization Method to Cloud Service Instance Data for Service Compliance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination