CN113468160A - 数据治理方法及装置、电子设备 - Google Patents

数据治理方法及装置、电子设备 Download PDF

Info

Publication number
CN113468160A
CN113468160A CN202110837541.XA CN202110837541A CN113468160A CN 113468160 A CN113468160 A CN 113468160A CN 202110837541 A CN202110837541 A CN 202110837541A CN 113468160 A CN113468160 A CN 113468160A
Authority
CN
China
Prior art keywords
field
data
base table
data set
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110837541.XA
Other languages
English (en)
Inventor
刘圣财
许阳
叶科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN202110837541.XA priority Critical patent/CN113468160A/zh
Publication of CN113468160A publication Critical patent/CN113468160A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种数据治理方法及装置、电子设备。所述方法包括:配置包含业务主题库模型中字段信息以及与所述字段信息对应的字段标准的业务数据集;基于所述业务数据集中数据项信息,构建每个数据项与原始库表中字段的映射关系;基于所述原始库表中每个字段对应到所述业务数据集中数据项的数据标准,对所述原始库表中数据进行数据清洗,将清洗后的标准化数据存储到继承了所述原始库表的字段信息的标准库表中;在对所述标准库表中的标准化数据进行数据融合后,基于所述业务数据集数据项与原始库表中字段的映射关系,确定所述标准数据库中继承于所述原始库表的字段对应到所述主题库表中的字段,从而将融合后数据存储到所述主题库表中。

Description

数据治理方法及装置、电子设备
技术领域
本申请实施例涉及互联网技术领域,尤其涉及一种数据治理方法及装置、电子设备。
背景技术
数据治理是指通过数据接入、数据清洗、数据融合、专题加工等数据治理方式,实现内部、外部共享数据的数据治理,并形成统一的大数据资源库。进而由大数据资源库对内部的业务***和外部共享交换提供统一的数据目录服务。
发明内容
本说明书实施例提供的一种数据治理方法及装置、电子设备:
根据本说明书实施例的第一方面,提供一种数据治理方法,所述方法包括:
配置包含主题库模型以及与所述字段信息对应的字段标准的业务数据集;
基于所述业务数据集信息,构建每个业务数据集数据项与原始库表中字段的映射关系;
基于所述原始库表中每个字段对应到所述业务数据集的字段标准,对所述原始库表中数据进行数据清洗,将清洗后的标准化数据存储到继承了所述原始库表的字段信息的标准库表中;
在对所述标准库表中的标准化数据进行数据融合后,基于所述业务数据集数据项与原始库表中字段的映射关系,确定所述标准数据库中继承于所述原始库表的字段映射到所述主题库表中的字段,从而将融合后数据存储到所述主题库表中。
根据本说明书实施例的第二方面,提供一种数据治理装置,所述装置包括:
配置单元,配置包含主题库模型以及与所述字段信息对应的字段标准的业务数据集;
构建单元,基于所述业务数据集信息,构建每个业务数据集中数据项与原始库表中字段的映射关系;
清洗单元,基于所述原始库表中每个字段对应到所述业务数据集数据项的数据标准,对所述原始库表中数据进行数据清洗,将清洗后的标准化数据存储到继承了所述原始库表的字段信息的标准库表中;
融合单元,在对所述标准库表中的标准化数据进行数据融合后,基于所述业务数据集数据项与原始库表中字段的映射关系,确定所述标准数据库中继承于所述原始库表的字段对应到所述主题库表中的字段,从而将融合后数据存储到所述主题库表中。
根据本说明书实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为上述任一项数据治理方法。
本说明书实施例提供了数据治理的方案,通过以治理目标为驱动,以结果为导向,先梳理业务级数据集(包含主题库模型和每一个主题库字段的数据元和清洗规则),最终在业务数据集基础上通过映射的方式优化和控制从原始库->标准库->主题库->专题库的数据治理流程,缩短表的标准化清洗的时间,并提升清洗后的数据质量。
附图说明
图1是本说明书提供的现有数据治理***的示意图。
图2是本说明书一实施例提供的数据治理方法的流程图。
图3是本说明书一实施例提供的改进的数据治理***的示意图。
图4是本说明书一实施例提供的数据治理装置的硬件结构图。
图5是本说明书一实施例提供的数据治理装置的模块示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
数据治理是指通过数据接入、数据清洗、数据融合、专题加工等数据治理方式,实现内部、外部共享数据的数据治理,并形成统一的大数据资源库。进而由大数据资源库对内部的业务***和外部共享交换提供统一的数据目录服务。
如图1所示为现有数据治理***的示意图。图1中,大数据库资源库对接有数据源和应用层的数据服务。
数据源可以是指各个业务***,这些业务***可以通过ETL(数据仓库技术,Extract-Transform-Load)接入大数据资源库,并将业务***产生的数据传输给大数据资源库的原始库。图1中,数据源的数据类型可以包括结构化数据、半结构化数据和非结构化数据,由此可见数据源的数据标准并不统一。
应用层的数据服务可以包括数据共享、服务开发、BI报表、数据挖掘等。这些数据服务的运行需要依赖专题库提供的数据治理后的数据。
如图1所示,大数据库资源库分为原始库、标准库、主题库和专题库。
其中,所述原始库用于对接数据源,存储从数据源传输过来的数据。原始库主要涉及数据治理过程中的数据接入环节。
所述标准库用于对原始库中存储的数据进行探查,根据数据标准(包含数据元、数据字典、清洗规则)进行清洗、转换最终形成标准化数据,清洗完成后的表结构直接继承了原始库的表结构。标准库主要涉及数据治理过程中的数据清洗环节。
所述主题库用于对标准库中存储的标准化数据进行融合加工(如通过分析、综合、归类和融合等),抽象形成业务领域的实体对象,最终形成一个对实体对象规范性、完整性、一致性数据集合。例如:在安全生产监管领域,多个业务***均会涉及到生产企业,将不同业务***企业相关信息经过分析、提取、设计成一个大而全的企业数据模型,经过数据融合形成一个可面向各种业务场景、业务领域的企业主题信息。
所述专题库为数据集市层,用于根据应用层的要求,依据主题库和标准库数据生成相关满足特定业务场景的数据,从而支撑应用层业务的使用。
以下将上述库与数据治理过程中涉及的各个环节相结合进行说明,原始库涉及数据对接环节,标准库涉及数据清洗环节,主题库涉及数据融合环节,专题库涉及专题加工环节。
1、原始库流程(原始库的数据治理的流程):主要依赖ETL工具,根据业务生产数据的实际情况,采用全量或增量,定时或实时的方式抽取到大数据资源库的原始库中,该过程对数据不做任何加工处理。
2、标准库流程(标准库的数据治理的流程):是以原始库的数据为基准,采用以下步骤进行标准化清洗:
1)数据探查:对业务数据进行数据探查,主要探查数据表中字段数据的空置率、文本最大长度、值域范围、代码分布,根据探查结果对表中每个字段的数据进行全貌掌握。
2)梳理标准:依据对字段的理解和掌握情况,结合国标/行标,梳理数据表字段所有数据标准(主要包含限定词、数据元和数据字典)。
3)数据清洗:将梳理出的数据标准关联到原始库数据表的字段,并进行标准化清洗形成标准化数据。
3、主题库流程(主题库的数据治理的流程):
1)对标准化清洗后数据进行深度分析,抽象形成业务数据模型。
2)根据不同业务***对不同数据的权威性,梳理各业务***数据字段相对于数据模型字段的优先级。
3)根据字段优先级关系,以标准库数据为基准,充分融合形成主题库。
4、专题库流程(专题库的数据治理的流程):以业务使用方业务需求为前提,按照多维的方式进行加工处理,包括定义维度、需要计算的指标、维度的层次等,生成面向业务***决策分析需求的数据集合。
在了解现有数据治理***的基础上,上述数据治理流程中对具有共性的客户(如应急、消防等行业客户)存在以下问题:
1、指定数据标准的成本较高。标准库流程中梳理数据标准步骤,制定的数据标准非常重要,直接影响清洗之后的数据质量。但其实根据探查结果梳理数据标准(限定词、数据元、数据字典、字段规则)步骤中,不仅要理解业务数据,还需要在网上查找相关领域的国标/行标,对于每一个项目均采用上述流程投入大,产出低。
2、数据清洗的规则不统一。标准库流程中数据清洗步骤中,结合对业务数据的理解,将梳理的数据标准关联到原始库数据本身比较简单,但因为每个客户业务数据非常多,字段量大的原因导致该环节在工作过程占据较大工作量,而且因不同人对数据标准理解的不同,以及清洗算法不一样,甚至出现不同业务***中统一字段可能采用不同的清洗,导致清洗后的标准数据质量参差不齐。
3、数据融合缺少统一的融合标准。主题库流程中,需将业务***的数据融合生成主题库,考虑到同一行业都具有相同的业务主体,但不同的人因为认知水平和业务理解的不同,以及数据权威性的理解,导致最后融合的主题差别非常大。
4、标准库与主题库之间缺失关联。在现有数据清洗是通过业务数据集中数据标准生成从原始库到标准库的清洗规则,其没有考虑主题库的自动生成,更没有考虑到不同业务中相同字段清洗规则唯一性校验的问题,从而导致清洗数据不一致和主题库需再次手工SQL融合的重复工作。
综上,现有数据治理流程主要采用从原始库->标准库->主题库->专题库的数据治理流程顺序,过度依赖客户现场数据治理人员对行业的熟悉和认知程度,导致通过治理后的数据质量参差不齐。
针对上述问题,本申请提供了一种数据治理方案,通过以治理目标为驱动,以结果为导向,先梳理业务级数据集(包含主题库模型和每一个主题库字段的数据元和清洗规则),最终在业务数据集基础上通过映射的方式优化和控制从原始库->标准库->主题库->专题库的数据治理流程,缩短表的标准化清洗的时间,并提升清洗后的数据质量。
以下可以参考图2所示的一种数据治理方法为例加以介绍,所述方法可以包括以下步骤:
步骤110:配置包含主题库模型以及与所述字段信息对应的字段标准的业务数据集。
本实施例通过以治理目标为驱动,以结果为导向,从主题库表出发梳理业务级数据集。
具体地,所述步骤110,可以包括:
步骤A1:基于目标业务涉及的行业规范,确定符合所述目标业务的主题库的字段信息。
通过参考现有行业指导性文件(如法律法规、政策公告、建设任务书等),并结合行业相关的规范,梳理行业所涉及规格和功能,以及相关的数据表字段信息,形成业务级主题库表的字段信息。
比如安全生产行业中企业基本信息、专家信息、危化品信息、危险源信息、安全隐患信息;灾害事故业务中地震信息、洪涝灾害信息、干旱信息、危化品***信息;应急救援力量业务中的救援队伍、救援人员信息;应急救援物资业务中救援物资信息、救援装备信息等。
步骤A2:基于所述主题库表的字段信息,确定所述主题库表的字段标准。
基于主题库表的字段信息,可以统一梳理得到数据的字段标准,确保主题库表中每个字段对应唯一的字段标准。
另外因为多个角色、多段过程形成导致存在同一字段标准对应不同的业务数据集的情况,可以采用同一字段标准和不同限定词进行关联。
例如法定代表人身份证号,负责人身份证号,值班人身份证号,对应字段标准为法定代表人-身份证号,负责人-身份证号,值班人-身份证号。
步骤A3:构建包含主题库模型以及与所述字段信息对应的字段标准的业务数据集。
其中,所述业务数据集的字段信息可以包括:字段中文名、英文名、长度、字段出处、数据类型以及字段所表达含义中的至少一种。
其中,所述字段标准可以包括对象词、特性词、表示词以及字段取值规则、字典码、值域范围中的至少一种。
步骤120:基于所述业务数据集中数据项信息,构建每个业务数据集数据项与原始库表中字段的映射关系。
在实施过程中,需要将数据源接入到大数据资源库的原始库表中。由于原始库表未对数据源的数据进行处理,保留了原始数据标准的数据。
为了便于后续标准库表到主题库表的数据融合。这里可以基于所述业务数据集中数据项信息,构建每个业务数据集数据项与原始库表中字段的映射关系。
考虑到各业务已有表结构和业务数据集中主题库表存在一定差别,映射过程可能存在以下几种情况:
1、一对一的映射关系。相应地,所述步骤120中,构建每个业务数据集数据项与原始库表中字段的映射关系,包括:
当原始库表中字段对应时,构建所述业务数据集数据项与原始库表中字段的一一对应的映射关系。
这种一对一的情况下,比较容易处理,可以是将业务数据集中的数据项一一与数据库表中的字段进行映射。
2、一对多的映射关系。相应地,所述步骤120中,构建每个业务数据集数据项与原始库表中字段的映射关系,包括:
当原始库表中包含有其它表的非关键字信息时,以业务数据集为基准将所述原始库拆分映射到多个主题库表中;
在过滤所述临时表中的重复字段后,构建所述业务数据集与临时表中字段对应在所述原始库表中字段的映射关系。
这种情况主要针对数据源设计数据表时未采用第三范式(3NF),即一个原始库表中包含了其它表的非主关键字信息。针对这种情况主要采用拆表的形式,即将一张为宽表的原始库表映射成对应业务数据集的多张临时表。拆表后可能存在某张表临时中存在重复数据,对于这种情况可以先排查过滤掉重复的数据。
3、多对一的映射关系。相应地,所述步骤120中,构建每个业务数据集数据项与原始库表中字段的映射关系,包括:
当多张原始库表属于同一关系表时,将所述多张原始库表的相同字段进行关联合并,构建所述业务数据集与关联合并后字段的对应关系。
这种情况主要针对数据源将原本属于同一关系表中的数据分散地存储到多个原始库表中。对于这种情况需关联合并成一个表。
4、多对多的映射关系。相应地,所述步骤120中,构建每个业务数据集数据项与原始库表中字段的映射关系,包括:
当同一类对象的字段存储在多张原始库表中时,将所述多张原始库表关联成一张宽表,并将所述宽表拆分为映射多张继承所述业务数据集的临时表;
采用关键字段对临时表中重复字段进行去重,构建所述业务数据集与去重后临时表中字段对应在所述原始库表中字段的映射关系。
这种情况可能由于数据源特定框架导致同一类对象拆分成不同原始库表。对于这种情况需要先将不同表关联成一张宽表后,再结合第2种一对多的情况拆分成不同临时表后进行映射。
5、列转行。相应地,所述步骤120中,构建每个业务数据集数据项与原始库表中字段的映射关系,包括:
当原始库表中存在以字典名作为列名时,根据所述业务数据集中的数据标准将原始库表中的字典名转换为字段名,将列名转换为字段值;
构建每个业务数据集数据项与原始库表中字段的映射关系。
这种情况主要是数据源设计时字典类型有限,在原始库表中一一罗列出来。比如学校教育***中班级课程教师信息,数据源建立一个班级表,并将每一个课程作为表字段的列,如下表1所示:
表1:以字典直接作为列名
班级 语文 数学 英语 美术 体育
一(1)班 张一 李一 刘二 王一 赵三
一(2)班 张二 李二 刘二 王二 赵三
一(3)班 张三 李一 刘三 王一 赵三
针对这种情况需要根据所述业务数据集中的数据标准将原始库表中的字典名转换为字段名,将列名转换为字段值;如下表2所示:
表2:以列名转化为字段值存储
Figure BDA0003177706140000091
Figure BDA0003177706140000101
步骤130:基于所述原始库表中每个字段对应到所述业务数据集的字段标准,对所述原始库表中数据进行数据清洗,将清洗后的标准化数据存储到继承了所述原始库表的字段信息的标准库表中。
步骤140:在对所述标准库表中的标准化数据进行数据融合后,基于所述业务数据集数据项与原始库表中字段的映射关系,确定所述标准数据库中继承于所述原始库表的字段对应到所述主题库表中的字段,从而将融合后数据存储到所述主题库表中。
在配置了业务数据集和构建了映射关系之后,本实施例涉及的数据治理***的流程就有区别于图1所示的数据治理***。
以下可以参考图3所示的改进的数据治理***的示意图。图3与图1相比,改进之处在于标准库到主题库之间的流程。其中:
黑色实线1:主题库表与业务数据集的关系,业务数据集的字段与主题库表的字段相同。
黑色实线2:构建业务数据集数据项与原始库表的映射关系。
黑色虚线3:标准库表继承了原始库表的字段信息,即标准库表的字段与原始库表的字段相同;而主题库表的字段与业务数据集的字段相同;因此基于业务数据集数据项与原始库表的映射关系,标准库表到主题库表可直接继承原始库表与业务数据集的映射关系。
通过本说明书实施例,对于数据库表中来自不同数据源提供的数据,通过主题库表配置的字段标准对所述数据库表中数据进行数据清洗,以得到标准化的数据,保证了字段清洗规则的一致性。
标准库表到主题库表的字段关系直接继承了原始库表和业务数据集的映射关系,避免了融合后的字段关系需要再次配置,缩短了主题库表开发的时间。
以标准库表作为中间临时表,减少字段重复清洗次数,避免字段重复清洗引起计算资源的浪费。
综上,本说明书实施例通过以结果为导向,先梳理业务级业务数据集,通过映射关系驱动从原始库->标准库->主题库->专题库的数据治理流程,缩短数据治理的的时间,降低了计算资源消耗,提升数据治理后的数据质量。
与前述数据治理方法实施例相对应,本说明书还提供了数据治理装置的实施例。所述装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机业务程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本说明书数据治理装置所在设备的一种硬件结构图,除了图4所示的处理器、网络接口、内存以及非易失性存储器之外,实施例中装置所在的设备通常根据数据治理实际功能,还可以包括其他硬件,对此不再赘述。
请参见图5,为本说明书一实施例提供的数据治理装置的模块图,所述装置对应了图2所示实施例,所述装置包括:
配置单元310,配置包含主题库模型以及与所述字段信息对应的字段标准的业务数据集;
构建单元320,基于所述业务数据集中业务数据集的字段信息,构建每个业务数据集数据项与原始库表中字段的映射关系;
清洗单元330,基于所述原始库表中每个字段对应到所述业务数据集的字段标准,对所述原始库表中数据进行数据清洗,将清洗后的标准化数据存储到继承了所述原始库表的字段信息的标准库表中;
融合单元340,在对所述标准库表中的标准化数据进行数据融合后,基于所述业务数据集数据项与原始库表中字段的映射关系,确定所述标准数据库中继承于所述原始库表的字段对应到所述主题库表中的字段,从而将融合后数据存储到所述主题库表中。
可选的,所述配置单元310,包括:
基于目标业务涉及的行业规范,确定符合所述目标业务的主题库的字段信息;
基于所述主题库表的字段信息,确定所述主题库表的字段标准;
构建包含主题库模型以及与所述字段信息对应的字段标准的业务数据集。
可选的,所述每个字段信息对应唯一的字段标准;其中,所述字段标准包含对象词、特性词、表示词以及字段取值规则、字典码、值域范围中的至少一种。
可选的,所述业务数据集的字段信息包括:字段中文名、英文名、长度、字段出处、数据类型以及字段所表达含义中的至少一种。
可选的,所述配置单元310还包括:
当所述业务数据集中存在同一字段标准对应不同的业务数据集时,采用同一字段标准和不同限定词进行关联。
可选的,所述构建单元320中,构建每个数据项与原始库表中字段的映射关系,包括:
当原始库表中字段对应时,构建所述数据项与原始库表中字段的一一对应的映射关系。
可选的,所述构建单元320中,构建每个数据项与原始库表中字段的映射关系,包括:
当原始库表中包含有其它表的非关键字信息时,将所述原始库拆分为多张临时表;
在过滤所述临时表中的重复字段后,构建所述数据项与临时表中字段对应在所述原始库表中字段的映射关系。
可选的,所述构建单元320中,构建每个数据项与原始库表中字段的映射关系,包括:
当多张原始库表属于同一关系表时,将所述多张原始库表的相同字段进行关联合并,构建所述数据项与关联合并后字段的对应关系。
可选的,所述构建单元320中,构建每个数据项与原始库表中字段的映射关系,包括:
当同一类对象的字段存储在多张原始库表中时,将所述多张原始库表关联层一张宽表,并将所述宽表拆分为映射多张继承所述业务数据集的临时表;
采用关键字段对临时表中重复字段进行去重,构建所述业务数据集与去重后临时表中字段对应在原始库表中字段的映射关系。
可选的,所述构建单元320中,构建每个数据项与原始库表中字段的映射关系,包括:
当原始库表中存在以字典名作为列名时,根据所述数据项中的数据标准将原始库表中的字典名转换为字段名,将列名转换为字段值;
构建每个数据项与原始库表中字段的映射关系。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上图5描述了数据治理装置的内部功能模块和结构示意,其实质上的执行主体可以为一种电子设备,包括:
处理器;用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行前述任一实施例所述的数据治理方法。
在上述电子设备的实施例中,应理解,该处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,而前述的存储器可以是只读存储器(英文:read-only memory,缩写:ROM)、随机存取存储器(英文:random access memory,简称:RAM)、快闪存储器、硬盘或者固态硬盘。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

Claims (13)

1.一种数据治理方法,其特征在于,所述方法包括:
配置包含业务对应的主题库模型中字段信息以及与所述字段信息对应的字段标准的业务数据集;
基于所述业务数据集中的数据项信息,构建与原始库表中字段的映射关系;
基于所述原始库表中每个字段对应到所述业务数据集中的数据项的字段标准,对所述原始库表中数据进行数据清洗,将清洗后的标准化数据存储到继承了所述原始库表的字段信息的标准库表中;
基于所述业务数据集中的数据项信息与原始库表中字段的映射关系,确定所述标准库表中继承于所述原始库表的字段对应到所述主题库表中的字段,从而将融合后数据存储到所述主题库模型对应的主题库表中。
2.根据权利要求1所述的方法,其特征在于,所述配置包含主题库模型以及与所述字段信息对应的字段标准的业务数据集,包括:
基于目标业务涉及的行业规范,确定符合所述目标业务的主题库的字段信息;
基于所述主题库表的字段信息,确定所述主题库表的字段标准;
构建包含主题库模型以及与所述字段信息对应的字段标准的业务数据集。
3.根据权利要求2所述的方法,其特征在于,所述每个字段信息对应唯一的字段标准,其中,所述字段标准包括对象词、特性词、表示词以及字段取值规则、字典码、值域范围中的至少一种。
4.根据权利要求2所述的方法,其特征在于,所述业务数据集的字段信息包括:字段中文名、英文名、长度、字段出处、数据类型以及字段所表达含义中的至少一种。
5.根据权利要求2所述的方法,其特征在于,当所述业务数据集中存在同一字段标准对应不同业务场景数据项时,采用同一字段标准和不同限定词进行区分。
6.根据权利要求1所述的方法,其特征在于,所述构建每个业务数据集数据项与原始库表中字段的映射关系,包括:
当原始库表中字段对应时,构建所述业务数据集数据项与原始库表中字段的一一对应的映射关系。
7.根据权利要求1所述的方法,其特征在于,所述构建每个业务数据集数据项与原始库表中字段的映射关系,包括:
当原始库表中包含有其它表的非关键字信息时,将所述原始库根据所述业务数据集拆分为多张临时表;
在过滤所述临时表中的重复字段后,构建所述业务数据集与临时表中字段对应在所述原始库表中字段的映射关系。
8.根据权利要求1所述的方法,其特征在于,所述构建每个业务数据集数据项与原始库表中字段的映射关系,包括:
当多张原始库表属于同一关系表时,将所述多张原始库表的相同字段进行关联合并,构建所述业务数据集与关联合并后字段的对应关系。
9.根据权利要求1所述的方法,其特征在于,所述构建每个业务数据集中数据项与原始库表中字段的映射关系,包括:
当同一类对象的字段存储在多张原始库表中时,将所述多张原始库表关联成一张宽表,并将所述宽表拆分为映射多个继承所述业务数据集的临时表;
采用关键字段对临时表中重复字段进行去重,构建所述业务数据集与去重后临时表中字段对应在原始库表中字段的映射关系。
10.根据权利要求1所述的方法,其特征在于,所述构建每个业务数据集数据项与原始库表中字段的映射关系,包括:
当原始库表中存在以字典名作为列名时,根据所述业务数据集将原始库表中的字典名转换为字段名,将列名转换为字段值;
构建每个业务数据集数据项与原始库表中字段的映射关系。
11.一种数据治理装置,其特征在于,所述装置包括:
配置单元,配置包含业务对应的主题库模型中字段信息以及与所述字段信息对应的字段标准的业务数据集;
构建单元,基于所述业务数据集中数据项信息,构建每个业务数据集数据项与原始库表中字段的映射关系;
清洗单元,基于所述原始库表中每个字段对应到所述业务数据集数据项的数据标准,对所述原始库表中数据进行数据清洗,将清洗后的标准化数据存储到继承了所述原始库表的字段信息的标准库表中;
融合单元,在对所述标准库表中的标准化数据进行数据融合后,基于所述业务数据集数据项与原始库表中字段的映射关系,确定所述标准数据库中继承于所述原始库表的字段对应到所述主题库表中的字段,从而将融合后数据存储到所述主题库表中。
12.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为上述权利要求1-10中任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-10中任一项所述的方法。
CN202110837541.XA 2021-07-23 2021-07-23 数据治理方法及装置、电子设备 Pending CN113468160A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110837541.XA CN113468160A (zh) 2021-07-23 2021-07-23 数据治理方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110837541.XA CN113468160A (zh) 2021-07-23 2021-07-23 数据治理方法及装置、电子设备

Publications (1)

Publication Number Publication Date
CN113468160A true CN113468160A (zh) 2021-10-01

Family

ID=77882172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110837541.XA Pending CN113468160A (zh) 2021-07-23 2021-07-23 数据治理方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN113468160A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064638A (zh) * 2021-10-27 2022-02-18 深圳萨摩耶数字科技有限公司 一种信息处理的方法、装置、设备及存储介质
CN114661723A (zh) * 2022-03-29 2022-06-24 杭州数梦工场科技有限公司 数据处理方法及装置、电子设备
CN115599840A (zh) * 2022-10-17 2023-01-13 中电科大数据研究院有限公司(Cn) 一种复杂业务数据治理方法和***
CN118174971A (zh) * 2024-05-15 2024-06-11 中国信息通信研究院 一种用于网络威胁的多源异构数据治理方法和***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337291A1 (en) * 2016-05-17 2017-11-23 JustTagIt, Inc. Function and memory mapping registry with reactive management events
CN111061833A (zh) * 2019-12-10 2020-04-24 北京明略软件***有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
US20200169685A1 (en) * 2018-11-23 2020-05-28 Sony Corporation Apparatus and method for tuner control by middleware
US20200233862A1 (en) * 2019-01-23 2020-07-23 Servicenow, Inc. Grammar-based searching of a configuration management database
CN112364003A (zh) * 2020-11-09 2021-02-12 南威软件股份有限公司 一种用于不同行业的大数据治理方法、装置、设备和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337291A1 (en) * 2016-05-17 2017-11-23 JustTagIt, Inc. Function and memory mapping registry with reactive management events
US20200169685A1 (en) * 2018-11-23 2020-05-28 Sony Corporation Apparatus and method for tuner control by middleware
US20200233862A1 (en) * 2019-01-23 2020-07-23 Servicenow, Inc. Grammar-based searching of a configuration management database
CN111061833A (zh) * 2019-12-10 2020-04-24 北京明略软件***有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN112364003A (zh) * 2020-11-09 2021-02-12 南威软件股份有限公司 一种用于不同行业的大数据治理方法、装置、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨兴凯;: "基于本体的政务数据仓库构建方法研究", 计算机工程与设计, no. 07 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064638A (zh) * 2021-10-27 2022-02-18 深圳萨摩耶数字科技有限公司 一种信息处理的方法、装置、设备及存储介质
CN114064638B (zh) * 2021-10-27 2024-07-02 深圳萨摩耶数字科技有限公司 一种信息处理的方法、装置、设备及存储介质
CN114661723A (zh) * 2022-03-29 2022-06-24 杭州数梦工场科技有限公司 数据处理方法及装置、电子设备
CN115599840A (zh) * 2022-10-17 2023-01-13 中电科大数据研究院有限公司(Cn) 一种复杂业务数据治理方法和***
CN118174971A (zh) * 2024-05-15 2024-06-11 中国信息通信研究院 一种用于网络威胁的多源异构数据治理方法和***

Similar Documents

Publication Publication Date Title
AU2019204976B2 (en) Intelligent data ingestion system and method for governance and security
US20220138431A1 (en) Method and system for securely storing private data in a semantic analysis system
CN113468160A (zh) 数据治理方法及装置、电子设备
Mirakhorli et al. Detecting, tracing, and monitoring architectural tactics in code
US11551105B2 (en) Knowledge management using machine learning model trained on incident-knowledge relationship fingerprints
US10339038B1 (en) Method and system for generating production data pattern driven test data
US20130054650A1 (en) Automatic detection of columns to be obfuscated in database schemas
US20190042950A1 (en) Learning computing activities and relationships using graphs
CN111061833A (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
Silva et al. Integrating big data into the computing curricula
EP3594822A1 (en) Intelligent data ingestion system and method for governance and security
Dasgupta et al. Towards auto-remediation in services delivery: Context-based classification of noisy and unstructured tickets
AU2012244271B2 (en) Associative memory-based project management system
Bogdanov et al. Big Data as the future of information technology
Pooput et al. Finding impact factors for rejection of pull requests on github
Sun et al. Clustering classes in packages for program comprehension
US20190042951A1 (en) Analysis of computing activities using graph data structures
Dass et al. Amelioration of Big Data analytics by employing Big Data tools and techniques
CN115481111A (zh) 数据融合方法、装置、计算机设备和存储介质
Pintas et al. SciLightning: a cloud provenance-based event notification for parallel workflows
US8527552B2 (en) Database consistent sample data extraction
Chen Database Design and Implementation
Andreescu et al. Measuring Data Quality in Analytical Projects.
CN113468161A (zh) 数据治理方法及装置、电子设备
Fisun et al. Generation of frequent item sets in multidimensional data by means of templates for mining inter-dimensional association rules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination