CN112685405A - 一种基于知识图谱的数据管理方法、***、设备及介质 - Google Patents

一种基于知识图谱的数据管理方法、***、设备及介质 Download PDF

Info

Publication number
CN112685405A
CN112685405A CN202011518155.6A CN202011518155A CN112685405A CN 112685405 A CN112685405 A CN 112685405A CN 202011518155 A CN202011518155 A CN 202011518155A CN 112685405 A CN112685405 A CN 112685405A
Authority
CN
China
Prior art keywords
data
incidence relation
knowledge
big data
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011518155.6A
Other languages
English (en)
Inventor
陈翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujia Newland Software Engineering Co ltd
Original Assignee
Fujia Newland Software Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujia Newland Software Engineering Co ltd filed Critical Fujia Newland Software Engineering Co ltd
Priority to CN202011518155.6A priority Critical patent/CN112685405A/zh
Publication of CN112685405A publication Critical patent/CN112685405A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了大数据技术领域的一种基于知识图谱的数据管理方法、***、设备及介质,方法包括如下步骤:步骤S10、服务器创建一仓库表,解析任务信息得到数据间的关联关系并存储至所述仓库表中;步骤S20、服务器获取待管理的大数据,并对所述大数据进行预处理;步骤S30、服务器从所述仓库表中读取关联关系,利用所述关联关系以及预处理后的大数据生成对应的知识图谱;步骤S40、基于所述知识图谱对大数据进行管理。本发明的优点在于:极大的提升了数据管理的质量。

Description

一种基于知识图谱的数据管理方法、***、设备及介质
技术领域
本发明涉及大数据技术领域,特别指一种基于知识图谱的数据管理方法、***、设备及介质。
背景技术
随着大数据分析服务能力的不断提升,推动着企业经营分析、应用方式和架构的转变,以动态化、可视化、关联分析为核心的业务分析场景逐步成为主要手段。因此,产生了对大数据的数据指标进行管理的需求。
针对数据指标的管理,传统上仅仅停留在指标规范定义的层面,未对指标关系、指标口径进行管理,即只管理到数据指标的定义,导致存在如下缺点:容易出现指标口径不统一、同名不同义、同义不同名的情况,当数据指标的口径变更后,应用调整的工作量巨大,或出现真正落地的口径未发生变化,频发表里不一的情况。
因此,如何提供一种基于知识图谱的数据管理方法、***、设备及介质,实现提升数据管理的质量,成为一个亟待解决的问题。
发明内容
本发明要解决的技术问题,在于提供一种基于知识图谱的数据管理方法、***、设备及介质,实现提升数据管理的质量。
第一方面,本发明提供了一种基于知识图谱的数据管理方法,包括如下步骤:
步骤S10、服务器创建一仓库表,解析任务信息得到数据间的关联关系并存储至所述仓库表中;
步骤S20、服务器获取待管理的大数据,并对所述大数据进行预处理;
步骤S30、服务器从所述仓库表中读取关联关系,利用所述关联关系以及预处理后的大数据生成对应的知识图谱;
步骤S40、基于所述知识图谱对大数据进行管理。
进一步地,所述步骤S10具体为:
服务器创建一仓库表,通过ETL同步任务信息,并利用元数据管理工具解析所述任务信息得到数据间的关联关系,并将所述关联关系存储至仓库表中;所述关联关系为数据之间的生成关系、依赖关系以及数据类别。
进一步地,所述步骤S20具体为:
服务器获取待管理的大数据,利用机器学习技术对所述大数据进行分词处理,生成若干个分词,并利用所述分词提取出指标名称以及指标定义。
进一步地,所述步骤S30具体为:
服务器从所述仓库表中读取关联关系,以所述指标名称作为知识图谱的节点,以所述关联关系作为各节点间连接的边,进而基于各所述节点和边生成对应的知识图谱。
第二方面,本发明提供了一种基于知识图谱的数据管理***,包括如下模块:
关联关系解析模块,用于服务器创建一仓库表,解析任务信息得到数据间的关联关系并存储至所述仓库表中;
大数据预处理模块,用于服务器获取待管理的大数据,并对所述大数据进行预处理;
知识图谱生成模块,用于服务器从所述仓库表中读取关联关系,利用所述关联关系以及预处理后的大数据生成对应的知识图谱;
大数据管理模块,用于基于所述知识图谱对大数据进行管理。
进一步地,所述关联关系解析模块具体为:
服务器创建一仓库表,通过ETL同步任务信息,并利用元数据管理工具解析所述任务信息得到数据间的关联关系,并将所述关联关系存储至仓库表中;所述关联关系为数据之间的生成关系、依赖关系以及数据类别。
进一步地,所述大数据预处理模块具体为:
服务器获取待管理的大数据,利用机器学习技术对所述大数据进行分词处理,生成若干个分词,并利用所述分词提取出指标名称以及指标定义。
进一步地,所述知识图谱生成模块具体为:
服务器从所述仓库表中读取关联关系,以所述指标名称作为知识图谱的节点,以所述关联关系作为各节点间连接的边,进而基于各所述节点和边生成对应的知识图谱。
第三方面,本发明提供了一种基于知识图谱的数据管理设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
第四方面,本发明提供了一种基于知识图谱的数据管理介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
通过解析任务信息得到数据间的关联关系,对待管理的大数据进行预处理提取出指标名称,再以指标名称作为知识图谱的节点,以关联关系作为各节点间连接的边,生成对应的知识图谱,最终基于知识图谱对大数据进行管理,即预先对各指标名称的口径(关联关系)进行结构化,基于统一的口径生成、更新知识图谱,避免出现口径不统一、同名不同义、同义不同名的情况,且极大的减轻了知识图谱更新的工作量,避免口径表里不一的情况,即极大的提升了数据管理的质量。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明一种基于知识图谱的数据管理方法的流程图。
图2是本发明一种基于知识图谱的数据管理***的结构示意图。
图3是本发明一种基于知识图谱的数据管理设备的结构示意图。
图4是本发明一种基于知识图谱的数据管理介质的结构示意图。
图5是本发明知识图谱的结构示意图。
具体实施方式
本申请实施例通过提供一种基于知识图谱的数据管理方法、***、设备及介质,实现提升数据管理的质量。
本申请实施例中的技术方案,总体思路如下:通过解析任务信息得到数据间的关联关系,对待管理的大数据进行预处理提取出指标名称,再以指标名称作为知识图谱的节点,以关联关系作为各节点间连接的边,生成对应的知识图谱对大数据进行管理,以提升数据管理的质量。
实施例一
本实施例提供一种基于知识图谱的数据管理方法,如图1和图5所示,包括如下步骤:
步骤S10、服务器创建一仓库表,解析任务信息得到数据间的关联关系并存储至所述仓库表中;
步骤S20、服务器获取待管理的大数据,并对所述大数据进行预处理;所述大数据为业务领域的基础数据、原子化数据;
步骤S30、服务器从所述仓库表中读取关联关系,利用所述关联关系以及预处理后的大数据生成对应的知识图谱;
步骤S40、基于所述知识图谱对大数据进行管理。
知识图谱是以图数据结构为信息承载方式,用于描述实体、概念之间关系的信息管理工具。知识图谱的基础单元是节点,两个以上的节点由边相互连接构成图。通常情况下,知识图谱中的数据以(实体、属性、值),(实体、关系、实体)混合的形式组织,作为(节点、边、节点)存入图结构。
所述步骤S10具体为:
服务器创建一仓库表,通过ETL(数据仓库技术)同步任务信息,并利用元数据管理工具解析所述任务信息得到数据间的关联关系,并将所述关联关系存储至仓库表中;所述关联关系为数据之间的生成关系、依赖关系以及数据类别,用于满足应用溯源的数据需求。元数据(Metadata),又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
所述数据类别可依照应用层业务支撑的域类划分,可分为客户域、产品域、资源域、渠道域四个类;依照业务类型划分,个人、家庭、集客三个类;按照产品类型的不同,可分为基础通信产品和通信增值产品等。
所述步骤S20具体为:
服务器获取待管理的大数据,利用机器学习技术中的自然语言处理技术对所述大数据进行分词处理,生成若干个分词,并利用所述分词提取出指标名称以及指标定义。
所述步骤S30具体为:
服务器从所述仓库表中读取关联关系,以所述指标名称作为知识图谱的节点,以所述关联关系作为各节点间连接的边,进而基于各所述节点和边生成对应的知识图谱。
实施例二
本实施例提供一种基于知识图谱的数据管理***,如图2和图5所示,包括如下模块:
关联关系解析模块,用于服务器创建一仓库表,解析任务信息得到数据间的关联关系并存储至所述仓库表中;
大数据预处理模块,用于服务器获取待管理的大数据,并对所述大数据进行预处理;所述大数据为业务领域的基础数据、原子化数据;
知识图谱生成模块,用于服务器从所述仓库表中读取关联关系,利用所述关联关系以及预处理后的大数据生成对应的知识图谱;
大数据管理模块,用于基于所述知识图谱对大数据进行管理。
知识图谱是以图数据结构为信息承载方式,用于描述实体、概念之间关系的信息管理工具。知识图谱的基础单元是节点,两个以上的节点由边相互连接构成图。通常情况下,知识图谱中的数据以(实体、属性、值),(实体、关系、实体)混合的形式组织,作为(节点、边、节点)存入图结构。
所述关联关系解析模块具体为:
服务器创建一仓库表,通过ETL(数据仓库技术)同步任务信息,并利用元数据管理工具解析所述任务信息得到数据间的关联关系,并将所述关联关系存储至仓库表中;所述关联关系为数据之间的生成关系、依赖关系以及数据类别,用于满足应用溯源的数据需求。元数据(Metadata),又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
所述数据类别可依照应用层业务支撑的域类划分,可分为客户域、产品域、资源域、渠道域四个类;依照业务类型划分,个人、家庭、集客三个类;按照产品类型的不同,可分为基础通信产品和通信增值产品等。
所述大数据预处理模块具体为:
服务器获取待管理的大数据,利用机器学习技术中的自然语言处理技术对所述大数据进行分词处理,生成若干个分词,并利用所述分词提取出指标名称以及指标定义。
所述知识图谱生成模块具体为:
服务器从所述仓库表中读取关联关系,以所述指标名称作为知识图谱的节点,以所述关联关系作为各节点间连接的边,进而基于各所述节点和边生成对应的知识图谱。
基于同一发明构思,本申请提供了实施例一对应的电子设备实施例,详见实施例三。
实施例三
本实施例提供了一种基于知识图谱的数据管理设备,如图3所示,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,可以实现实施例一中任一实施方式。
由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备,故而基于本申请实施例一中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲保护的范围。
基于同一发明构思,本申请提供了实施例一对应的存储介质,详见实施例四。
实施例四
本实施例提供一种基于知识图谱的数据管理介质,如图4所示,其上存储有计算机程序,该计算机程序被处理器执行时,可以实现实施例一中任一实施方式。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
通过解析任务信息得到数据间的关联关系,对待管理的大数据进行预处理提取出指标名称,再以指标名称作为知识图谱的节点,以关联关系作为各节点间连接的边,生成对应的知识图谱,最终基于知识图谱对大数据进行管理,即预先对各指标名称的口径(关联关系)进行结构化,基于统一的口径生成、更新知识图谱,避免出现口径不统一、同名不同义、同义不同名的情况,且极大的减轻了知识图谱更新的工作量,避免口径表里不一的情况,即极大的提升了数据管理的质量。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (10)

1.一种基于知识图谱的数据管理方法,其特征在于:包括如下步骤:
步骤S10、服务器创建一仓库表,解析任务信息得到数据间的关联关系并存储至所述仓库表中;
步骤S20、服务器获取待管理的大数据,并对所述大数据进行预处理;
步骤S30、服务器从所述仓库表中读取关联关系,利用所述关联关系以及预处理后的大数据生成对应的知识图谱;
步骤S40、基于所述知识图谱对大数据进行管理。
2.如权利要求1所述的一种基于知识图谱的数据管理方法,其特征在于:所述步骤S10具体为:
服务器创建一仓库表,通过ETL同步任务信息,并利用元数据管理工具解析所述任务信息得到数据间的关联关系,并将所述关联关系存储至仓库表中;所述关联关系为数据之间的生成关系、依赖关系以及数据类别。
3.如权利要求1所述的一种基于知识图谱的数据管理方法,其特征在于:所述步骤S20具体为:
服务器获取待管理的大数据,利用机器学习技术对所述大数据进行分词处理,生成若干个分词,并利用所述分词提取出指标名称以及指标定义。
4.如权利要求3所述的一种基于知识图谱的数据管理方法,其特征在于:所述步骤S30具体为:
服务器从所述仓库表中读取关联关系,以所述指标名称作为知识图谱的节点,以所述关联关系作为各节点间连接的边,进而基于各所述节点和边生成对应的知识图谱。
5.一种基于知识图谱的数据管理***,其特征在于:包括如下模块:
关联关系解析模块,用于服务器创建一仓库表,解析任务信息得到数据间的关联关系并存储至所述仓库表中;
大数据预处理模块,用于服务器获取待管理的大数据,并对所述大数据进行预处理;
知识图谱生成模块,用于服务器从所述仓库表中读取关联关系,利用所述关联关系以及预处理后的大数据生成对应的知识图谱;
大数据管理模块,用于基于所述知识图谱对大数据进行管理。
6.如权利要求5所述的一种基于知识图谱的数据管理***,其特征在于:所述关联关系解析模块具体为:
服务器创建一仓库表,通过ETL同步任务信息,并利用元数据管理工具解析所述任务信息得到数据间的关联关系,并将所述关联关系存储至仓库表中;所述关联关系为数据之间的生成关系、依赖关系以及数据类别。
7.如权利要求5所述的一种基于知识图谱的数据管理***,其特征在于:所述大数据预处理模块具体为:
服务器获取待管理的大数据,利用机器学习技术对所述大数据进行分词处理,生成若干个分词,并利用所述分词提取出指标名称以及指标定义。
8.如权利要求7所述的一种基于知识图谱的数据管理***,其特征在于:所述知识图谱生成模块具体为:
服务器从所述仓库表中读取关联关系,以所述指标名称作为知识图谱的节点,以所述关联关系作为各节点间连接的边,进而基于各所述节点和边生成对应的知识图谱。
9.一种基于知识图谱的数据管理设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述的方法。
10.一种基于知识图谱的数据管理介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4任一项所述的方法。
CN202011518155.6A 2020-12-21 2020-12-21 一种基于知识图谱的数据管理方法、***、设备及介质 Pending CN112685405A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011518155.6A CN112685405A (zh) 2020-12-21 2020-12-21 一种基于知识图谱的数据管理方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011518155.6A CN112685405A (zh) 2020-12-21 2020-12-21 一种基于知识图谱的数据管理方法、***、设备及介质

Publications (1)

Publication Number Publication Date
CN112685405A true CN112685405A (zh) 2021-04-20

Family

ID=75449745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011518155.6A Pending CN112685405A (zh) 2020-12-21 2020-12-21 一种基于知识图谱的数据管理方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN112685405A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114911943A (zh) * 2021-10-29 2022-08-16 上海宝信软件股份有限公司 基于知识图谱的经营指标体系构建方法和***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018036239A1 (zh) * 2016-08-24 2018-03-01 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和***
CN108197182A (zh) * 2017-12-25 2018-06-22 百味云科技股份有限公司 一种数据图谱分析***以及方法
CN108446367A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种基于知识图谱的包装行业数据搜索方法及设备
CN109670048A (zh) * 2018-11-19 2019-04-23 平安科技(深圳)有限公司 基于风控管理的图谱构建方法、装置和计算机设备
CN110457482A (zh) * 2019-06-06 2019-11-15 福建奇点时空数字科技有限公司 一种基于知识图谱的智能化信息服务***
CN111897808A (zh) * 2020-07-15 2020-11-06 苏宁金融科技(南京)有限公司 一种数据处理方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018036239A1 (zh) * 2016-08-24 2018-03-01 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和***
CN108197182A (zh) * 2017-12-25 2018-06-22 百味云科技股份有限公司 一种数据图谱分析***以及方法
CN108446367A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种基于知识图谱的包装行业数据搜索方法及设备
CN109670048A (zh) * 2018-11-19 2019-04-23 平安科技(深圳)有限公司 基于风控管理的图谱构建方法、装置和计算机设备
CN110457482A (zh) * 2019-06-06 2019-11-15 福建奇点时空数字科技有限公司 一种基于知识图谱的智能化信息服务***
CN111897808A (zh) * 2020-07-15 2020-11-06 苏宁金融科技(南京)有限公司 一种数据处理方法、装置、计算机设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114911943A (zh) * 2021-10-29 2022-08-16 上海宝信软件股份有限公司 基于知识图谱的经营指标体系构建方法和***

Similar Documents

Publication Publication Date Title
US8719299B2 (en) Systems and methods for extraction of concepts for reuse-based schema matching
CN108268600B (zh) 基于ai的非结构化数据管理方法及装置
CN111241073B (zh) 一种数据质量检查方法及装置
US8250532B2 (en) Efficient development of configurable software systems in a large software development community
CN104298588A (zh) 一种持续集成的实现方法及装置
CN108540351B (zh) 分布式大数据服务的自动化测试方法
CN112416923A (zh) 一种元数据管理方法及装置、设备、存储介质
CN114116065B (zh) 获取拓扑图数据对象的方法、装置、及电子设备
CN110781542A (zh) Bim模型数据处理方法和装置
CN111177244A (zh) 面向多个异构数据库的数据关联分析方法
CN111435367A (zh) 知识图谱的构建方法、***、设备及存储介质
CN116662441A (zh) 一种分布式数据血缘构建及展现方法
CN111652658A (zh) 画像融合方法、装置、电子设备及计算机可读存储介质
CN112685405A (zh) 一种基于知识图谱的数据管理方法、***、设备及介质
CN114398315A (zh) 一种数据存储方法、***、存储介质及电子设备
US10169725B2 (en) Change-request analysis
CN107239568B (zh) 分布式索引实现方法及装置
CN113590651B (zh) 一种基于hql的跨集群数据处理***及方法
CN111563123B (zh) 一种hive仓库元数据实时同步方法
US8566814B2 (en) Transporting object packets in a nested system landscape
CN111143356B (zh) 报表检索方法及装置
CN114281461A (zh) 一种可配置数据源属性的管理方法、设备及介质
US8949787B2 (en) Locating isolation points in an application under multi-tenant environment
EP3404599A1 (en) Information processing apparatus, method and program
CN110609926A (zh) 数据标签存储管理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210420

RJ01 Rejection of invention patent application after publication