CN113704343A - 一种数据治理中的数据血缘可视化实现方法及*** - Google Patents

一种数据治理中的数据血缘可视化实现方法及*** Download PDF

Info

Publication number
CN113704343A
CN113704343A CN202110972514.3A CN202110972514A CN113704343A CN 113704343 A CN113704343 A CN 113704343A CN 202110972514 A CN202110972514 A CN 202110972514A CN 113704343 A CN113704343 A CN 113704343A
Authority
CN
China
Prior art keywords
data
component
data processing
assembly
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110972514.3A
Other languages
English (en)
Inventor
王文文
路国隋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Technology Co Ltd
Original Assignee
Inspur Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Technology Co Ltd filed Critical Inspur Software Technology Co Ltd
Priority to CN202110972514.3A priority Critical patent/CN113704343A/zh
Publication of CN113704343A publication Critical patent/CN113704343A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0486Drag-and-drop
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据治理中的数据血缘可视化实现方法及***,属于数据处理技术领域,该方法该方法对数据治理流程进行可视化展示;通过完成元数据采集,并且结合平台提供的多样化数据处理加工组件,支持在画布中拖拽式增加组件节点及连线组件节点,完成数据治理流程配置,实现数据血缘关系的可视化展示。本发明通过实现数据血缘的可视化展示,能够很清楚的了解数据是如何流转的,达到数据血缘可视化的目标,为数据管理提供依据。

Description

一种数据治理中的数据血缘可视化实现方法及***
技术领域
本发明涉及数据处理技术领域,具体地说是一种数据治理中的数据血缘可视化实现方法及***。
背景技术
在大数据时代,由于分散的数据源、巨大的数据量和非结构化的数据类型使组织的数据管理复杂性进一步复杂化,增加了数据治理的难度。同一行业的不同数据源,或者不同行业的数据,针对规模巨大、类型多样、高速流转、复杂多变、质量参差不齐、价值密度高低不一的大数据特性,如何做到数据治理的可视化实现,需要基于元数据及数据处理加工组件,实现数据治理过程中的数据血缘可视化展示。
发明内容
本发明的技术任务是针对以上不足之处,提供一种数据治理中的数据血缘可视化实现方法及***,该方法通过实现数据血缘的可视化展示,能够很清楚的了解数据是如何流转的,为数据管理提供依据。
本发明解决其技术问题所采用的技术方案是:
一种数据治理中的数据血缘可视化实现方法,该方法对数据治理流程进行可视化展示;通过完成元数据采集,并且结合平台提供的多样化数据处理加工组件,支持在画布中拖拽式增加组件节点及连线组件节点,完成数据治理流程配置,实现数据血缘关系的可视化展示。
数据源,即数据的来源,是提供某种所需要数据的器件或原始媒体,通过提供正确的数据源名称,可以找到相应的数据库连接;元数据,定义和描述数据的管理控制类数据;数据血缘,是指在数据产生、加工融合、流转流通到最终消亡等过程中形成的继承关系集合。
通过该方法支持拖拽式增加组件节点及连线信息,使治理流程配置清晰明了,能够清楚的了解数据是如何流转的,为数据管理提供依据。
优选的,所述数据治理流程包括数据源配置,元数据采集,数据读取,数据处理,数据分发和数据质量检验;
所述平台提供的多样化数据处理加工组件包括基础组件、数据读取/分发组件、数据提取、数据清洗、数据关联、数据比对、数据标识以及数据质量组件。
进一步的,所述数据源配置,配置来源数据库和目标数据库,来源数据库的表用于读取数据,目标数据库的表用于写数据;
所述元数据采集,获取到字段信息,所述字段信息用于数据处理组件的参数,贯穿整个数据治理流程;
所述数据读取,针对不同类型的数据源提供多种读取组件,不同数据读取组件需要配置的参数不同;
所述数据处理组件,一个数据处理组件,前面连线数据读取组件或处理组件时该组件作为目标节点;后面连线数据处理组件或数据分发组件时该组件作为源节点;不同数据处理组件所需的参数不同,源节点的输出结果可以作为目标节点的输入参数;
所述数据分发,数据处理完成后分发写入数据库,数据分发针对不同类型的数据源提供多种分发组件,不同数据分发组件需要配置的参数不同;
所述数据质量检验,数据分发完成写入数据库后,数据治理结果需要根据质量规则进行检验,看数据是否规范化。
优选的,所述数据读取支持类型包括关系型数据库、Hdfs、ES、Kafka、Hbase、Ftp读取以及流读取。
优选的,所述数据处理组件包括基础组件、提取组件、清洗组件、关联组件、比对组件和标识组件,
基础组件支持选择字段、数据分流、聚合操作、union操作以及排序topN;
提取组件包括中文字符提取、手机号提取、车牌号提取、身份证号提取以及图片提取;
清洗组件支持替换字符串、身份证15位转18位、增加固定值、替换字符串、字典替换、字段加密、扩展字段、计算值、过滤数据以及去重数据;
关联组件包括左关联及关联;
比对组件包括交集、并集和差集;
标识组件包括偏好打标、属性打标、直接打标以及属性映射打标。
优选的,所述数据分发支持类型包括关系型数据库、Hdfs、ES、Kafka、Hbase、Ftp写数据和Hive。
优选的,数据质量检验组件支持类型包括身份证格式校验、电话号码格式校验、更新及时性、记录完整性、数据唯一性、属性完整性、主键唯一性以及值域有效性。
本发明还要求保护一种数据治理中的数据血缘可视化实现***,包括数据采集模块、数据处理模块以及数据治理流程配置模块,通过数据采集模块完成元数据采集,通过数据治理流程配置模块结合数据处理模块提供的多样化数据处理加工组件,实现在画布中拖拽式增加组件节点及连线组件节点,实现数据血缘关系的可视化展示;
该***实现上述的数据治理中的数据血缘可视化实现方法。
本发明还要求保护一种数据治理中的数据血缘可视化实现装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行上述的数据治理中的数据血缘可视化实现方法。
本发明还要求保护一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述的数据治理中的数据血缘可视化实现方法。
本发明的一种数据治理中的数据血缘可视化实现方法及***与现有技术相比,具有以下有益效果:
本方法通过提供多样化的数据读写、数据处理、数据质量组件,并且支持画布中拖拽组件及配置组件参数功能,使数据治理配置流程实现可视化,规范化效果,清晰展示数据是如何流转,达到数据血缘可视化的目标。
附图说明
图1是本发明一个实施例提供的数据治理流程图;
图2是发明一个实施例提供的数据血缘可视化示例图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本发明实施例提供一种数据治理中的数据血缘可视化实现方法,该方法对数据治理流程进行可视化展示;通过完成元数据采集,并且结合平台提供的多样化数据处理加工组件,支持在画布中拖拽式增加组件节点及连线组件节点,完成数据治理流程配置,实现数据血缘关系的可视化展示。通过该方法支持拖拽式增加组件节点及连线信息,使治理流程配置清晰明了,能够清楚的了解数据是如何流转的,为数据管理提供依据。
数据源,即数据的来源,是提供某种所需要数据的器件或原始媒体,通过提供正确的数据源名称,可以找到相应的数据库连接;元数据,定义和描述数据的管理控制类数据;数据血缘,是指在数据产生、加工融合、流转流通到最终消亡等过程中形成的继承关系集合。
所述数据治理流程包括数据源配置,元数据采集,数据读取,数据处理,数据分发和数据质量检验;
所述平台提供的多样化数据处理加工组件包括基础组件、数据读取/分发组件、数据提取、数据清洗、数据关联、数据比对、数据标识以及数据质量组件。
具体实施如下:
1)、数据源配置,
数据源配置来源数据库和目标数据库,来源数据库的表用于读取数据,目标数据库的表用于写数据;
2)、元数据采集,
元数据采集获取到字段信息,所述字段可用于数据处理组件的参数,贯穿整个数据治理流程;
3)、数据读取,
数据读取针对不同类型的数据源提供多种读取组件,支持关系型数据库、Hdfs、ES、Kafka、Hbase、Ftp读取、流读取等,不同数据读取组件需要配置的参数不同;
4)、数据处理,
数据处理组件包括基础组件、提取组件、清洗组件、关联组件、比对组件和标识组件;一个数据处理组件,前面连线数据读取组件或处理组件时该组件作为目标节点;后面连线数据处理组件或数据分发组件时该组件作为源节点;不同数据处理组件所需的参数不同,源节点的输出结果可以作为目标节点的输入参数;
基础组件支持选择字段、数据分流、聚合操作、union操作以及排序topN;
提取组件包括中文字符提取、手机号提取、车牌号提取、身份证号提取以及图片提取等;
清洗组件支持替换字符串、身份证15位转18位、增加固定值、替换字符串、字典替换、字段加密、扩展字段、计算值、过滤数据以及去重数据等;
关联组件包括左关联及关联;
比对组件包括交集、并集和差集;
标识组件包括偏好打标、属性打标、直接打标以及属性映射打标;
5)、数据分发,
数据处理完成后分发写入数据库,数据分发针对不同类型的数据源提供多种分发组件,支持关系型数据库、Hdfs、ES、Kafka、Hbase、Ftp写数据和Hive等,不同数据分发组件需要配置的参数不同;
6)、数据质量检验,
数据分发完成写入数据库后,数据治理结果需要根据质量规则进行检验,看数据是否规范化;数据质量检验组件支持类型包括身份证格式校验、电话号码格式校验、更新及时性、记录完整性、数据唯一性、属性完整性、主键唯一性以及值域有效性等。
如图1所示为数据治理的流程图。
图2为本实施例中数据血缘可视化示例,其具体操作如下:
1、数据读取组件:
画布中拖拽增加数据读取下的读数据表组件,定义节点名称为【铁路乘车信息读取】,选择要读取的数据表为【治安人口库】下的【tlccxx】表。
2、数据处理组件:
1)、拖拽增加基础组件分组下的选择字段组件,连线读数据表组件和选择字段组件,新增组件参数选择【tlccxx】表的【车次CC】、【姓名XM】、【证件号码ZJHM】等全部字段。
2)、拖拽增加数据清洗分组下的身份证15位转18位组件,连线选择字段组件和身份证15位转18位组件,新增组件参数选择字段为【证件号码ZJHM】,回填字段为【证件号码ZJHM】。
3、数据分发组件
画布中拖拽增加数据分发下的写数据表组件,连线身份证15位转18位组件和写数据表组件,选择要写入的数据表为【原始库】下的【tlccxx】表,***模式为insert,原始库tlccxx表的目标字段和身份证15位转18位组件输出的源字段做字段映射。
本发明实施例还提供了一种数据治理中的数据血缘可视化实现***,包括数据采集模块、数据处理模块以及数据治理流程配置模块,通过数据采集模块完成元数据采集,通过数据治理流程配置模块结合数据处理模块提供的多样化数据处理加工组件,实现在画布中拖拽式增加组件节点及连线组件节点,实现数据血缘关系的可视化展示;
该***实现上述实施例描述的数据治理中的数据血缘可视化实现方法。
本发明实施例还提供了一种数据治理中的数据血缘可视化实现装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行上述实施例描述的数据治理中的数据血缘可视化实现方法。
本发明实施例还提供了一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述实施例描述的数据治理中的数据血缘可视化实现方法。具体地,可以提供配有存储介质的***或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该***或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

Claims (10)

1.一种数据治理中的数据血缘可视化实现方法,其特征在于,该方法对数据治理流程进行可视化展示;通过完成元数据采集,并且结合平台提供的多样化数据处理加工组件,支持在画布中拖拽式增加组件节点及连线组件节点,完成数据治理流程配置,实现数据血缘关系的可视化展示。
2.根据权利要求1所述的一种数据治理中的数据血缘可视化实现方法,其特征在于所述数据治理流程包括数据源配置,元数据采集,数据读取,数据处理,数据分发和数据质量检验;
所述平台提供的多样化数据处理加工组件包括基础组件、数据读取/分发组件、数据提取、数据清洗、数据关联、数据比对、数据标识以及数据质量组件。
3.根据权利要求2所述的一种数据治理中的数据血缘可视化实现方法,其特征在于所述数据源配置,配置来源数据库和目标数据库,来源数据库的表用于读取数据,目标数据库的表用于写数据;
所述元数据采集,获取到字段信息,所述字段信息用于数据处理组件的参数,贯穿整个数据治理流程;
所述数据读取,针对不同类型的数据源提供多种读取组件,不同数据读取组件需要配置的参数不同;
所述数据处理组件,一个数据处理组件,前面连线数据读取组件或处理组件时该组件作为目标节点;后面连线数据处理组件或数据分发组件时该组件作为源节点;不同数据处理组件所需的参数不同,源节点的输出结果可以作为目标节点的输入参数;
所述数据分发,数据处理完成后分发写入数据库,数据分发针对不同类型的数据源提供多种分发组件,不同数据分发组件需要配置的参数不同;
所述数据质量检验,数据分发完成写入数据库后,数据治理结果需要根据质量规则进行检验,看数据是否规范化。
4.根据权利要求3所述的一种数据治理中的数据血缘可视化实现方法,其特征在于所述数据读取支持类型包括关系型数据库、Hdfs、ES、Kafka、Hbase、Ftp读取以及流读取。
5.根据权利要求3所述的一种数据治理中的数据血缘可视化实现方法,其特征在于所述数据处理组件包括基础组件、提取组件、清洗组件、关联组件、比对组件和标识组件,
基础组件支持选择字段、数据分流、聚合操作、union操作以及排序topN;
提取组件包括中文字符提取、手机号提取、车牌号提取、身份证号提取以及图片提取;
清洗组件支持替换字符串、身份证15位转18位、增加固定值、替换字符串、字典替换、字段加密、扩展字段、计算值、过滤数据以及去重数据;
关联组件包括左关联及关联;
比对组件包括交集、并集和差集;
标识组件包括偏好打标、属性打标、直接打标以及属性映射打标。
6.根据权利要求3或4或5所述的一种数据治理中的数据血缘可视化实现方法,其特征在于所述数据分发支持类型包括关系型数据库、Hdfs、ES、Kafka、Hbase、Ftp写数据和Hive。
7.根据权利要求6所述的一种数据治理中的数据血缘可视化实现方法,其特征在于数据质量检验组件支持类型包括身份证格式校验、电话号码格式校验、更新及时性、记录完整性、数据唯一性、属性完整性、主键唯一性以及值域有效性。
8.一种数据治理中的数据血缘可视化实现***,其特征在于包括数据采集模块、数据处理模块以及数据治理流程配置模块,通过数据采集模块完成元数据采集,通过数据治理流程配置模块结合数据处理模块提供的多样化数据处理加工组件,实现在画布中拖拽式增加组件节点及连线组件节点,实现数据血缘关系的可视化展示;
该***实现权利要求1-7任一项所述的数据治理中的数据血缘可视化实现方法。
9.一种数据治理中的数据血缘可视化实现装置,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至7任一所述的数据治理中的数据血缘可视化实现方法。
10.计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行权利要求1至7任一所述的数据治理中的数据血缘可视化实现方法。
CN202110972514.3A 2021-08-24 2021-08-24 一种数据治理中的数据血缘可视化实现方法及*** Withdrawn CN113704343A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110972514.3A CN113704343A (zh) 2021-08-24 2021-08-24 一种数据治理中的数据血缘可视化实现方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110972514.3A CN113704343A (zh) 2021-08-24 2021-08-24 一种数据治理中的数据血缘可视化实现方法及***

Publications (1)

Publication Number Publication Date
CN113704343A true CN113704343A (zh) 2021-11-26

Family

ID=78654227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110972514.3A Withdrawn CN113704343A (zh) 2021-08-24 2021-08-24 一种数据治理中的数据血缘可视化实现方法及***

Country Status (1)

Country Link
CN (1) CN113704343A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292353A (zh) * 2022-10-09 2022-11-04 腾讯科技(深圳)有限公司 数据查询方法、装置、计算机设备和存储介质
CN115905292A (zh) * 2022-12-16 2023-04-04 广东东联信创信息技术有限公司 一种基于大数据的数据治理方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292353A (zh) * 2022-10-09 2022-11-04 腾讯科技(深圳)有限公司 数据查询方法、装置、计算机设备和存储介质
CN115905292A (zh) * 2022-12-16 2023-04-04 广东东联信创信息技术有限公司 一种基于大数据的数据治理方法及***

Similar Documents

Publication Publication Date Title
US9171025B2 (en) Test data generation and scale up for database testing using unique common factor sequencing
CN113704343A (zh) 一种数据治理中的数据血缘可视化实现方法及***
CN108279885B (zh) 一种对多个模型代码进行软件集成的方法及装置
JP6090850B2 (ja) ソースプログラム解析システム、ソースプログラム解析方法およびプログラム
CN111435367B (zh) 知识图谱的构建方法、***、设备及存储介质
CN115293124A (zh) 软件工程化文档自动生成方法及装置
CN113138990B (zh) 一种数据血缘构建、追溯方法、装置及设备
CN112948473A (zh) 数据仓库的数据处理方法、装置、***及存储介质
CN109214640B (zh) 指标结果的确定方法、设备及计算机可读存储介质
CN113342921A (zh) 资源编目方法及装置
CN115904480B (zh) 代码重构方法、装置、电子设备及存储介质
CN116955469A (zh) 一种基于血缘分析的业务告警溯源方法
CN116302079A (zh) 一种业务数据处理方法、装置、电子设备及存储介质
CN105426676A (zh) 一种钻井数据处理方法和***
CN115757174A (zh) 一种数据库的差异检测方法及装置
CN105740260A (zh) 提取模板文件数据结构的方法和装置
CN111752994B (zh) 游戏数字资产管理方法、***、存储介质以及计算设备
JP5487078B2 (ja) ソフトウェア資産整理方法及び装置
CN111881309A (zh) 电子证照检索方法、装置和计算机可读介质
CN117933206B (zh) 业务数据处理方法、装置、设备、存储介质及程序产品
CN115757823B (zh) 数据处理方法、装置、电子设备和存储介质
CN116541382B (zh) 基于数据安全识别级别的数据治理方法及***
CN113076316B (zh) 一种信息关系映射的分析方法、装置、设备及存储介质
CN112560344B (zh) 一种构建模型伺服***的方法和装置
CN114816353A (zh) 一种存储管理软件动态生成组件模板的方法、装置、设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20211126

WW01 Invention patent application withdrawn after publication