CN114925042A - 一种基于图形数据库的元数据关系的构建方法 - Google Patents

一种基于图形数据库的元数据关系的构建方法 Download PDF

Info

Publication number
CN114925042A
CN114925042A CN202210706119.5A CN202210706119A CN114925042A CN 114925042 A CN114925042 A CN 114925042A CN 202210706119 A CN202210706119 A CN 202210706119A CN 114925042 A CN114925042 A CN 114925042A
Authority
CN
China
Prior art keywords
data
metadata
database
platform
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210706119.5A
Other languages
English (en)
Inventor
李良昆
岳正飞
杨融
高攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Positive Network Technology Co ltd
Original Assignee
Positive Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Positive Network Technology Co ltd filed Critical Positive Network Technology Co ltd
Priority to CN202210706119.5A priority Critical patent/CN114925042A/zh
Publication of CN114925042A publication Critical patent/CN114925042A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图形数据库的元数据关系的构建方法,其特征在于,包括以下步骤:S1,通过对各部门业务***数据库表进行分析,并生成数据普查报告;S2,根据各业务***特点及数据库版本,通过ETL工具对各个业务***进行ETL任务配置;S3,将配置好的任务通过大数据平台进行注册、治理、调度操作。本发明基于JanusGraph图数据库构建元数据管理容器,提升在政务大规模数据管理与应用过程中元数据识别、建模、元数据关系管理与数据视图生成的效率与直观性,解决关系深度深时的元数据追溯问题慢,运行效率差,不能集群化部署,支持并发度低的问题。

Description

一种基于图形数据库的元数据关系的构建方法
技术领域
本发明属于图形数据库技术领域,尤其涉及一种基于图形数据库的元数据关系的构建方法。
背景技术
为贯彻落实国家数字政府建设总体规划,加快推动数字政府建设,使政府职能逐步转变,从原先的管理方式转变为先进的服务方式。在政府职能转变过程中,必须打破现有政府部门之间的信息壁垒,不断推动政府数据开发共享、推动资源整合,提升治理能力。同时,政府部门通过建设省市县大数据中心方式,对各个部门使用的业务***数据库进行集中整合,形成数据仓库对外开放共享。在数据仓库对外共享使用的过程中,存在数据标准不统一、数据关联关系不清晰等情况,导致很多共享数据变成问题元数据,造成数据共享效率低下,共享数据无法直接使用等问题。
当前广泛使用的元数据血缘关系构建主要以传统关系型数据库为主,虽然能够对元数据进行追溯,但在实际使用过程中存在一定的限制和缺陷。如首先无法追溯关系深度大于一定数据值的元数据,在对关系深度小于一定数据值的元数据进行追溯时,运行效率较差;其次,需要开发技术接口配合数据追溯,有比较高的技术门槛;再次,支持并发度较低,无法支撑高并发业务等。而政务类元数据更加强调对数据追溯的时效性与准确性,因此现有元数据血缘关系构建在政务数据应用上存在缺陷,无法有效支撑。
发明内容
针对现有技术不足,本发明的目的在于提供一种基于图形数据库的元数据关系的构建方法,基于JanusGraph图数据库构建元数据管理容器,提升在政务大规模数据管理与应用过程中元数据识别、建模、元数据关系管理与数据视图生成的效率与直观性,解决关系深度深时的元数据追溯问题慢,运行效率差,不能集群化部署,支持并发度低的问题。
本发明提供如下技术方案:
一种基于图形数据库的元数据关系的构建方法,包括以下步骤:
S1,通过对各部门业务***数据库表进行分析,并生成数据普查报告;
S2,根据各业务***特点及数据库版本,通过ETL工具对各个业务***进行ETL任务配置; S3,将配置好的任务通过大数据平台进行注册、治理、调度操作。将配置好的任务注册到大数据平台任务调度中心,对业务***数据库进行采集。
优选的,在步骤S1中,所述数据库表分析步骤为:首先整理现有各部门业务***数据库表结构,然后分析各业务***字段之间的关联关系和真实的字段含义。
优选的,所述大数据平台包括数据治理平台、任务调度平台。
优选的,在步骤S2中,所述ETL工具用于对各业务***数据进行采集,并将各个元数据与数据进行耦合,并将采集完成的元数据和数据通过所述数据治理平台对元数据进行管理。
优选的,所述数据治理平台对元数据进行管理的实现方式为:通过微服务方式对采集元数据进行数据关联,并将生成的关联关系直接写入到JanusGraph库。
优选的,所述任务调度平台用于对数据治理平台治理完成的数据进行数据仓库分层构建综合库或专题数据库。
优选的,所述任务调度平台在对数据进行调度过程中,数据流向通过日志组件将数据最终流向更新到JanusGraph库。
优选的,在步骤S3中,所述大数据平台包括还包括运维监控平台,用于实时监控任务采集情况。
优选的,所述日志组件包括***日志、错误日志、中间表日志,所述***日志用于记录对数据源和数据仓库的操作,***日志记录的内容包括当前用户、***时间、所做的操作以及用户总数目;所述错误日志用于在流程错误点产生时记录错误信息,错误日志可以帮助业务开发人员调试;所述中间表日志用于记录***对数据转移过程中组建的创建信息、***运行时间和运行周期以及在数据转换时程序的流程情况。显示数据是怎样从源数据库中抽取出来装载到目标数据库中的。
优选的,所述ETL工具的工作方式是通过先抽取再装载最后在***仓库中进行数据转换的方式实现。即数据转换在数据装载之后。
与现有技术相比,本发明具有以下有益效果:
(1)本发明一种基于图形数据库的元数据关系的构建方法,通过基于JanusGraph图数据库构建元数据管理容器,提升在政务大规模数据管理与应用过程中元数据识别、建模、元数据关系管理与数据视图生成的效率与直观性,解决关系深度深时的元数据追溯问题慢,运行效率差,不能集群化部署,支持并发度低的问题。
(2)本发明一种基于图形数据库的元数据关系的构建方法,通过采用的ETL工具支持多类型关系或非关系数据库的采集,可进行多链路采集,能保证断点续传,不仅能对元数据进行采集也支持对数据的采集,且采集过程不需要复杂治理过程。
(3)本发明一种基于图形数据库的元数据关系的构建方法,通过数据治理平台能对数据建立统一标准,检核数据质量,准确描述数据元属性,分析数据之间关联关系,形成数据资源目录,实现数据快速检索,和对数据全生命周期进行管理。
(4)本发明一种基于图形数据库的元数据关系的构建方法,元数据追溯关系深度越大,本方法的优势越明显,在政务元数据管理应用过程中,数据的深度能够反映数据的价值,而处理数据深度也是构建元数据模型的基础,本发明基于JanusGraph图形数据库实现了对元数据的设计管理,能够成功追溯到源头业务***数据,并且以图形的方式展示元数据之间的关系,展示效果更加直观、清晰。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的共晶磷去除方法的流程图。
图2为本发明的血缘关系图。
图3为本发明的ETL工作原理图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述。显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
实施例1
请参阅图1-2所示,一种基于图形数据库的元数据关系的构建方法,包括以下步骤:
S1,通过对各部门业务***数据库表进行分析,并生成数据普查报告;
S2,根据各业务***特点及数据库版本,通过ETL工具对各个业务***进行ETL(Extract-Transform-Load)任务配置;
S3,将配置好的任务通过大数据平台进行注册、治理、调度操作。
在步骤S1中,所述数据库表分析步骤为:首先整理现有各部门业务***数据库表结构,然后分析各业务***字段之间的关联关系和真实的字段含义。
所述大数据平台包括数据治理平台、任务调度平台。
在步骤S2中,所述ETL工具用于对各业务***数据进行采集,并将各个元数据与数据进行耦合,可以有效获取到任意一个数据归属于那个字段、那个表、那个库,并将采集完成的元数据和数据通过所述数据治理平台对元数据进行管理。
所述数据治理平台对元数据进行管理的实现方式为:通过微服务方式对采集元数据进行数据关联,并将生成的关联关系直接写入到JanusGraph库。血缘关系图如图2,如将人社业务***(yw_rs)下面的业务库(yw_ku)中的用户表(user)中的姓名(name)形成关联关系yw_re-ye_ku-user-name。
通过元数据血缘关系,重建了整个元数据家族的构建过程,刻画了家族成员彼此连接的脉络和途径。当某数据出现错误或者异常时,可通过向上分析锁定问题产生的源头;当对某些数据进行修改时,可通过向下分析,得到哪些数据实体中的数据会受到影响。还通过提供列级的访问,将追踪的粒度精确到字段。
所述任务调度平台用于对数据治理平台治理完成的数据进行数据仓库分层构建综合库或专题数据库。
所述任务调度平台在对数据进行调度过程中,数据流向通过日志记录的方式将数据最终流向更新到JanusGraph库。如数据从ODS(原始数据)到DWD(明细数据层)到DWS (服务数据层)到最后专题库或ADS(数据应用层),特别说明在流转过程中只需记录数据到综合库或专题库的位置,无需记录中间流程。如上述人社***的血缘关系就是 yw_re-ye_ku-user-name-ADS_zh_ku(人社业务***(yw_rs)下面的业务库(yw_ku)中的用户表(user)中的姓名(name)形成综合人口库(ADS_zh_ku))。
在步骤S3中,所述大数据平台包括还包括运维监控平台,用于实时监控任务采集情况。
前期数据普查,对采集的业务***进行全面深刻的理解,对该业务***数据库、字段、属性有清晰的普查报告。
采用的ETL工具支持多类型关系或非关系数据库的采集,可进行多链路采集,能保证断点续传,不仅能对元数据进行采集也支持对数据的采集,且采集过程不需要复杂治理过程。
搭建数据任务调度平台及运维监控平台,对整个任务链条进行数据调度和运维管控等。
数据治理平台能对数据建立统一标准,检核数据质量,准确描述数据元属性,分析数据之间关联关系,形成数据资源目录,实现数据快速检索,和对数据全生命周期进行管理。
元数据追溯关系深度越大,本方法的优势越明显。在政务元数据管理应用过程中,数据的深度能够反映数据的价值,而处理数据深度也是构建元数据模型的基础。本文基于JanusGraph图形数据库,实现了对元数据的设计管理,能够成功追溯到源头业务***数据,并且以图形的方式展示元数据之间的关系,展示效果更加直观、清晰。
实施例2
在实施例1的基础上,请参阅图3所示,所述日志组件包括***日志、错误日志、中间表日志,所述***日志用于记录对数据源和数据仓库的操作,***日志记录的内容包括当前用户、***时间、所做的操作以及用户总数目;所述错误日志用于在流程错误点产生时记录错误信息,错误日志可以帮助业务开发人员调试;所述中间表日志用于记录***对数据转移过程中组建的创建信息、***运行时间和运行周期以及在数据转换时程序的流程情况。显示数据是怎样从源数据库中抽取出来装载到目标数据库中的。
所述ETL工具的工作方式是通过先抽取再装载最后在***仓库中进行数据转换的方式实现。即数据转换在数据装载之后。传统ETL工具有几个缺点,1,性能问题,ETL过程的数据转换步骤显然是三个步骤中运算最多的一步,传统的ETL方法转换步骤完全由ETL 在专门的服务器上运行。ETL工具逐条的对数据进行转换或者是质量检测,这很容易使转换流程变成整个ETL过程的瓶颈。此外,数据在源、目的和工具之间转递也增加了网络通信量并导致附加运行问题。例如这样的一个ETL流程:数据从数据库端源表抽取出来,并且需要从数据仓库的某参照表中选择一些数据来完善自身,然后装载到数据仓库目的表中。传统的ETL工具一般采取如下几种方式完成该流程:a.在内存中加载仓库端参照表;整个参照表从数据仓库中检索出来并载入中央引擎内存中。然后再在引擎内存中完成源表抽取数据的重组(转化),最后装载到数据仓库的目的表中。如果参照表很大,运行时要求大量内存和很长时间来加载并对引擎中的数据重编索引。b.一行行地检索参照表;对于每一次抽取ETL工具去查询数据仓库的参照表。查询返回一个匹配源数据的单独行。如果源表有1000万行,ETL引擎就要发送1000万个查询。这将显著减慢ETL过程并显著增加数据仓库的额外开销。对于大型商业数据集成来说几乎不可能完成。显然这两种方式都是低效的,由此可见传统的ETL方法在性能上存在一定缺陷。2,费用问题:一般来说,实施ETL过程的费用将通过节省劳动力得以补偿。在ETL过程的ROI(Return On Investment)分析中,必须考虑到额外的和潜在的花销。最明显的花费是购买专用服务器和ETL引擎软件。由于ETL引擎是一种中间级组件,执行大量的预算,因此需要一个强大的服务器,甚至是服务器集群来满足高强度的运算要求。随着数据仓库的规模增大,ETL服务器还需要在运行期间还有不断的硬件和软件维护升级费用。此外,传统的ETL工具还有许多潜在的花费,包括部署、调试所需要的咨询开支及集成需求变化时的代码重写费用。而本发明设计的数据转移体系结构与传统的过程不同之处就是数据转换在数据装载之后;把数据转移放在加载之后,这样就弥补了传统ETL工具的几个缺点。如图3所示,先抽取再装载最后在***仓库中通过进行数据转换,在装载时或装载后可以利用PL/SQL语言编写转换函数或者是触发器完成数据的转换。这种数据转移并不是简单的将数据源完全复制到数据仓库端,而在数据仓库端建立数据源的镜像。对于跨平台的大型数据库,可以通过TCP/IP协议进行跨平台访问,因为大型数据库(如DB2等)都提供了数据服务的IP地址和对应的端口, 可以通过IP和端口得到服务.然后通过加用户名和密码的方式增加安全级别,来对数据库进行访问。
以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化;凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于图形数据库的元数据关系的构建方法,其特征在于,包括以下步骤:
S1,通过对各部门业务***数据库表进行分析,并生成数据普查报告;
S2,根据各业务***特点及数据库版本,通过ETL工具对各个业务***进行ETL任务配置;
S3,将配置好的任务通过大数据平台进行注册、治理、调度操作。
2.根据权利要求1所述一种基于图形数据库的元数据关系的构建方法,其特征在于,在步骤S1中,所述数据库表分析步骤为:首先整理现有各部门业务***数据库表结构,然后分析各业务***字段之间的关联关系和真实的字段含义。
3.根据权利要求1所述一种基于图形数据库的元数据关系的构建方法,其特征在于,所述大数据平台包括数据治理平台、任务调度平台。
4.根据权利要求3所述一种基于图形数据库的元数据关系的构建方法,其特征在于,在步骤S2中,所述ETL工具用于对各业务***数据进行采集,并将各个元数据与数据进行耦合,并将采集完成的元数据和数据通过所述数据治理平台对元数据进行管理。
5.根据权利要求4所述一种基于图形数据库的元数据关系的构建方法,其特征在于,所述数据治理平台对元数据进行管理的实现方式为:通过微服务方式对采集元数据进行数据关联,并将生成的关联关系直接写入到JanusGraph库。
6.根据权利要求5所述一种基于图形数据库的元数据关系的构建方法,其特征在于,所述任务调度平台用于对数据治理平台治理完成的数据进行数据仓库分层构建综合库或专题数据库。
7.根据权利要求6所述一种基于图形数据库的元数据关系的构建方法,其特征在于,所述任务调度平台在对数据进行调度过程中,数据流向通过日志组件将数据最终流向更新到JanusGraph库。
CN202210706119.5A 2022-06-21 2022-06-21 一种基于图形数据库的元数据关系的构建方法 Pending CN114925042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210706119.5A CN114925042A (zh) 2022-06-21 2022-06-21 一种基于图形数据库的元数据关系的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210706119.5A CN114925042A (zh) 2022-06-21 2022-06-21 一种基于图形数据库的元数据关系的构建方法

Publications (1)

Publication Number Publication Date
CN114925042A true CN114925042A (zh) 2022-08-19

Family

ID=82814669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210706119.5A Pending CN114925042A (zh) 2022-06-21 2022-06-21 一种基于图形数据库的元数据关系的构建方法

Country Status (1)

Country Link
CN (1) CN114925042A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541887B (zh) * 2023-07-07 2023-09-15 云启智慧科技有限公司 一种大数据平台数据安全保护方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541887B (zh) * 2023-07-07 2023-09-15 云启智慧科技有限公司 一种大数据平台数据安全保护方法

Similar Documents

Publication Publication Date Title
US8671084B2 (en) Updating a data warehouse schema based on changes in an observation model
CN107315776B (zh) 一种基于云计算的数据管理***
Aboutorabiª et al. Performance evaluation of SQL and MongoDB databases for big e-commerce data
US10303702B2 (en) System and method for analysis and management of data distribution in a distributed database environment
CN111459985B (zh) 标识信息处理方法及装置
CN110300963A (zh) 大规模数据储存库中的数据管理***
CN109997125A (zh) 用于将数据导入数据储存库的***
CN109558393B (zh) 一种数据模型构建方法、装置、设备及存储介质
CN104899295B (zh) 一种异构数据源数据关联分析方法
CN106202207A (zh) 一种基于HBase‑ORM的索引及检索***
CN104205039A (zh) 使用兴趣驱动数据管线进行数据分析的兴趣驱动商业智能***和方法
CN104424360A (zh) 用于访问源数据库中的一组数据表格的方法和***
CN114116716A (zh) 一种层次数据检索方法、装置和设备
CN112527774A (zh) 数据中台搭建方法、***及存储介质
CN111563130A (zh) 一种基于区块链技术的数据可信数据治理方法和***
CN112148718A (zh) 一种用于城市级数据中台的大数据支撑管理***
CN114880405A (zh) 一种基于数据湖的数据处理方法及***
CN107423390A (zh) 一种基于oltp‑olap混合关系型数据库***内部的数据实时同步算法
CN113934750A (zh) 基于编译方式的数据血缘关系分析方法
CN112883001A (zh) 一种基于营配贯通数据可视化平台的数据处理方法、装置及介质
CN111125116A (zh) 定位业务表中代码字段及对应代码表的方法及***
CN115858513A (zh) 数据治理方法、装置、计算机设备和存储介质
CN110245037B (zh) 一种基于日志的Hive用户操作行为还原方法
CN114925042A (zh) 一种基于图形数据库的元数据关系的构建方法
CN115640300A (zh) 一种大数据管理方法、***、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination