CN109902117B - 业务***分析方法和装置 - Google Patents

业务***分析方法和装置 Download PDF

Info

Publication number
CN109902117B
CN109902117B CN201910124636.XA CN201910124636A CN109902117B CN 109902117 B CN109902117 B CN 109902117B CN 201910124636 A CN201910124636 A CN 201910124636A CN 109902117 B CN109902117 B CN 109902117B
Authority
CN
China
Prior art keywords
etl
metadata
job
business
execution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910124636.XA
Other languages
English (en)
Other versions
CN109902117A (zh
Inventor
孟利娟
李日光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN201910124636.XA priority Critical patent/CN109902117B/zh
Publication of CN109902117A publication Critical patent/CN109902117A/zh
Application granted granted Critical
Publication of CN109902117B publication Critical patent/CN109902117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开公开了一种业务***分析方法和装置,涉及数据分析技术领域。本公开实施例中,通过获取各业务***分别对应的各ETL作业的技术元数据和业务元数据,以及通过DAG工作流作业调度***提取各ETL作业之间的依赖元数据,所述依赖元数据包括各ETL作业间的执行逻辑关系,并根据获取到的技术元数据、业务元数据和依赖元数据,分析业务***之间的关联关系,使得对企业的业务***进行分析时,能够基于不同业务***对应的各ETL作业间的执行逻辑关系,对业务***之间的关联关系进行综合分析,以满足对随着企业业务***增多和业务数据增长所带来的日益复杂的业务***分析要求。

Description

业务***分析方法和装置
技术领域
本公开涉及数据分析技术领域,尤其涉及一种业务***分析方法和装置。
背景技术
企业通常具有多个业务***,分别涉及企业各个方面的业务。对于企业而言,通过对各业务***进行分析,能够对企业找到经济增长点及优化运营策略提供可靠参考依据。
目前,业务***分析的方法通常是通过分别对每个抽取-转换-装载(Extract-Transform-Load,ETL)作业进行分析,即,对单个ETL作业中的多任务间逻辑关系、数据源、目标源、字段处理规则、数据治理规则等元数据进行提取和分析,得到各ETL作业分别对应的分析结果。
但是,随着企业所涉及的业务越来越复杂,业务***也越来越多,采用上述现有的业务***分析方法时,只能分析得到各ETL作业的分析结果,无法综合分析出各业务***之间的关联关系,从而导致无法满足企业日益复杂的业务***分析要求。
发明内容
本公开提供一种业务***分析方法和装置,用于解决现有技术中存在的无法综合分析出各业务***之间的关联关系,从而导致无法满足企业日益复杂的业务***分析要求的技术问题。
为实现上述目的,本公开实施例第一方面提供一种业务***分析方法,所述方法包括:
获取各业务***分别对应的各ETL作业的技术元数据和业务元数据;通过有向无环图DAG工作流作业调度***,提取各ETL作业之间的依赖元数据,所述依赖元数据包括各ETL作业间的执行逻辑关系;根据技术元数据、业务元数据和依赖元数据,分析业务***之间的关联关系。
第二方面,本公开实施例提供一种业务***分析装置,包括:获取模块、提取模块和分析模块;获取模块,用于获取各业务***分别对应的各ETL作业的技术元数据和业务元数据;提取模块,用于通过有向无环图DAG工作流作业调度***,提取各ETL作业之间的依赖元数据,所述依赖元数据包括各ETL作业间的执行逻辑关系;分析模块,用于根据技术元数据、业务元数据和依赖元数据,分析业务***之间的关联关系。
第三方面,本公开实施例提供一种电子设备,包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述第一方面所述的业务***分析方法。
第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如第一方面所述的业务***分析方法。
基于上述任一方面,本公开实施例具有以下有益效果:
本公开实施例中,通过获取各业务***分别对应的各ETL作业的技术元数据和业务元数据,以及通过DAG工作流作业调度***提取各ETL作业之间的依赖元数据,所述依赖元数据包括各ETL作业间的执行逻辑关系,并根据技术元数据、业务元数据和依赖元数据,分析业务***之间的关联关系,使得对企业业务***进行分析,能够基于不同业务***对应的各ETL作业间的执行逻辑关系,对业务***之间的关联关系进行分析,以满足对随着企业业务***增多和业务数据增长所带来的日益复杂的业务***分析要求。
附图说明
图1示出了本公开实施例提供的现有业务***关联关系的示意图;
图2为本公开实施例提供的业务***分析方法的流程示意图;
图3为本公开实施例提供的业务***分析方法的另一流程示意图;
图4为本公开实施例提供的业务***分析方法的又一流程示意图;
图5为本公开实施例提供的业务***关联关系的示意图;
图6为本公开实施例提供的业务***分析方法的又一流程示意图;
图7为本公开实施例提供的业务***分析装置的结构示意图;
图8为本公开实施例提供的业务***分析装置的另一结构示意图;
图9为本公开实施例提供的业务***分析装置的又一结构示意图;
图10为本公开实施例提供的电子设备的结构示意图。
本公开目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本公开,并不用于限定本公开。
对于企业而言,可以对来自不同业务***的业务数据进行分析,得到分析结果,并能够根据分析结果为用户提供更好的服务和/或为企业自身制定更优的运营策略。
通常企业会涉及多个业务***,而每个业务***可能会涉及多个ETL作业,即,针对一个业务***而言,可以采用不同的ETL作业对该一个业务***对应的不同类型的业务数据(源数据)分别进行相应的ETL处理,而每个ETL作业中会包含一种或多种ETL任务。其中,一个ETL作业中的一种或多种ETL任务可以按照转换规则、字段处理规则和数据治理规则等对该ETL作业对应的数据源中的数据进行处理。而对于一个企业而言,业务***分析通常是指通过对该企业的多个业务***对应的多个ETL作业分别进行分析,即,分别对单个ETL作业中的多任务间逻辑关系、数据源、目标源、字段处理规则、数据治理规则等元数据进行提取和分析,最终得到各个ETL作业分别对应的分析结果,组成该企业的业务***分析结果。其中,元数据(Metadata)被定义为关于数据的数据,在企业的数据仓库***中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据。
图1示出了本公开实施例提供的现有业务***关联关系的示意图。
例如,假设一个企业中存在三个业务***,分别为业务***1、业务***2和业务***3,其中,业务***1涉及的ETL作业为ETL作业1,涉及到的数据源为数据库1和数据库2(即可以理解为,ETL作业1的数据源为数据库1和数据库2),业务***1的数据仓库为业务库1(即可以理解为,ETL作业1的目标源为业务库1);业务***2涉及的ETL作业为ETL作业2,涉及到的数据源为数据库3和业务库1,业务***2的数据仓库为业务库2;业务***3涉及的ETL作业为ETL作业3和ETL作业4,涉及到的数据源为数据库3和数据库4,业务***3的数据仓库为业务库3。如图1所示,该企业的作业调度***中包含有上述3个业务***所涉及的4个ETL作业:ETL作业1、ETL作业2、ETL作业3和ETL作业4,根据现有的元数据管理***对该企业业务***分析如下:
1)ETL作业1中的多个ETL任务分别按照数据质量规则对数据库1和数据2中的数据进行处理,即ETL作业1的数据源为数据库1和数据库2;经过ETL作业1处理后的数据进入到业务库1,即ETL作业1的目标源为业务库1。其中,数据质量规则是指为保证数据质量而对数据的处理规则,例如,对ETL作业1中的某个ETL任务,其对应的数据质量规则可以是一种或多种数据清洗规则,能够对数据库1和数据库2中的数据进行数据清洗,将错误数据和垃圾数据进行清理,以保证数据的质量。
2)ETL作业2中的多个ETL任务分别按照字段替换规则、数据校验规则等对业务库1和数据库3中的数据进行处理,即ETL作业2的数据源为业务库1和数据库3。例如,ETL作业2中的ETL任务1按照字段替换规则对数据库3种的数据进行处理,可以是按照字段替换规则将数据库3中的不规则字段替换为规则字段,使得数据规范化。ETL任务N2按照数据校验规则对业务库1中的数据进行处理,可以是按照数据校验规则对业务库1中的文件名、报文头、账户记录等进行数据校验。经过ETL作业2处理后的数据进入到业务库2,即ETL作业2的目标源为业务库2。
3)ETL作业3中的多个ETL任务分别按照数据过滤规则、数据质量规则等对数据库3和数据库4中的数据进行处理,即ETL作业3的数据源为数据库3和数据库4。例如,ETL作业3中的ETL任务1按照数据过滤规则对数据库3中的数据进行处理,可以是按照数据过滤规则将数据库3中不符合规则的相关数据进行过滤,如,数据库3中若存在一组不等长的字段,数据过滤规则可以为“字段长度小于a的字段进行过滤”等。ETL任务N3按照数据质量规则对数据库4中的数据进行处理,可参考前述ETL作业1中所述内容。经过ETL作业3处理后的数据进入到业务库3,即ETL作业3的目标源为业务库3。
4)ETL作业4中的多个ETL任务分别按照字段处理规则、数据治理规则等对数据库3和数据库4中的数据进行处理,即ETL作业4的数据源为数据库3和数据库4。例如,ETL作业4中的ETL任务1按照字段处理规则对数据库3种的数据进行处理,可以是按照字段处理规则将数据库3中相关字段进行填充或删减,如,数据库3中若存在一组身份信息为“XX省XX市XX县XX乡XX村”,字段处理规则要求将身份信息处理为“XX省XX市”的格式,则ETL任务1可根据字段处理规则将该身份信息中的“XX县XX乡XX村”进行删除。ETL任务N4按照数据治理规则对数据库4中的数据进行处理,可以是将数据库4中的一些零散数据变为统一主数据,将其从具有很少或没有组织和流程治理到企业范围内井井有条的数据等。经过ETL作业4处理后的数据进入到业务库3,即ETL作业4的目标源为业务库3。
由上可知,基于现有元数据管理***对业务***进行分析时,只对单个ETL作业的多任务间逻辑关系、数据源、目标源、字段处理规则、数据治理规则等元数据进行提取和分析,而多个ETL作业的分析彼此孤立。但是,随着大数据时代的到来,一个企业的元数据管理***中所涉及的业务***越来越复杂,现有的业务***分析方法对于企业而言存在越来越多的局限性,无法综合分析出各业务***之间的关联关系,从而导致无法满足企业日益复杂的业务***分析要求。
基于此,本公开实施例提供一种业务***分析方法,以解决现有技术中存在的无法综合分析出各业务***之间的关联关系,从而无法满足企业日益复杂的业务***分析要求的技术问题。
该方法可以应用于具有通信和计算能力的计算设备。该计算设备可以是服务器、工作站,也可以是桌面计算机、笔记本计算机等配置的个人计算机等,本公开对此不作限定。
图2为本公开实施例提供的业务***分析方法的流程示意图。
如图2所示,该业务***分析方法包括:
S201、获取各业务***分别对应的各ETL作业的技术元数据和业务元数据。
对于一个企业而言,通常可能具有多个业务***,而一个业务***通常对应多个ETL作业。通过从各业务***中获取到各业务***对应的各ETL作业的元数据,可以对企业业务***进行分析。
例如,假设企业包括业务***1,业务***2和业务***3,业务***1对应的ETL作业为ETL作业1,业务***2对应的ETL作业为ETL作业2,业务***3对应的ETL作业为ETL作业3和ETL作业4,那么,可以理解为,业务***1,业务***2和业务***3对应的ETL作业为ETL作业1,ETL作业2,ETL作业3和ETL作业4。
具体地,元数据是指描述企业数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(BusinessMetadata)。其中,技术元数据是存储关于数据仓库***技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息:数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;业务***、数据仓库和数据集市的体系结构和模式汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全。业务元数据则从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际***之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;***所提供的分析方法以及公式和报表的信息等。
如上所述,对于单个ETL作业而言,所对应的技术元数据和业务元数据可以是指:单个ETL作业中多ETL任务间逻辑关系、数据源、目标源、字段处理规则和数据治理规则等元数据。例如,所获取的技术元数据可以是字段名称、字段长度、数据库表结构等,而业务元数据可以是业务名称、业务定义或业务描述等,对于技术元数据和业务元数据的具体类型,本公开在此不作限定。
S202、通过有向无环图DAG工作流作业调度***,提取各ETL作业之间的依赖元数据,依赖元数据包括各ETL作业间的执行逻辑关系。
企业会涉及多个业务***,而每个业务***会涉及一个或多个ETL作业,而每个ETL作业中会包含一种或多种ETL任务,其中,对于多个ETL作业间可能具有相互依赖的关联关系,即,各ETL作业之间的执行逻辑关系,例如,对于ETL作业1和ETL作业2而言,若ETL作业1必须在到达特定的时间才可以触发执行,则其为时间触发作业;若ETL作业2必须在ETL作业1完成后才可触发执行,则ETL作业2和ETL作业1之间为依赖触发作业的关系。
对企业而言,作业调度***能够保证企业的业务***在正确的时间点启动正确的ETL作业,确保ETL作业按照正确的依赖关系及时准确的执行。有向无环图(DirectedAcyclic Graph,DAG)是有向图的一种,特点是图中没有环,可以被用来表示ETL作业之间的执行逻辑关系,管理业务***中ETL作业的调度。而基于DAG的工作流作业调度***能够实现多种依赖触发的DAG工作流作业调度方式,以满足复杂业务***ETL作业间的执行逻辑关系关系,如:时间触发作业,依赖触发作业,混合触发作业等。
可选地,可通过DAG工作流作业调度***,提取上述各业务***中各ETL作业之间的执行逻辑关系,从而得到各ETL作业之间的依赖元数据。
以上述存在依赖触发作业关系的ETL作业1和ETL作业2为例,若通过DAG工作流作业调度***所提取的ETL作业1和ETL作业2的执行逻辑关系为“ETL作业1完成,才可执行ETL作业2”,则可将该执行逻辑关系作为ETL作业1和ETL作业2之间对应的依赖元数据。
S203、根据技术元数据、业务元数据和依赖元数据,分析业务***之间的关联关系。
具体地,可以通过对所获取的各业务***对应的各ETL作业的业务元数据(如:业务名称、业务定义或业务描述等)和技术元数据(如:字段名称、字段长度、数据库表结构等),以及各ETL作业间的依赖元数据(如:ETL作业1与ETL作业2的执行逻辑关系“ETL作业1完成,才可执行ETL作业2”等)进行综合分析,确定不同ETL作业间的关联关系和影响关系(如:ETL作业1与ETL作业2有强关联关系,ETL作业1的ETL任务或数据源中数据的变更对ETL作业2的影响较大等)。
进一步,可根据不同业务***所对应的ETL作业间的关联关系和影响关系,分析得到业务***与业务***之间的关联关系和影响关系(如:业务***1与业务***2有强关联关系,业务***1数据变更对业务***2的影响比较大等),从而实现企业业务***分析,使得分析结果更加准确和全面,为企业制定运营策略和更好地服务用户提供更可靠的依据。
由上所述,本公开实施例提供的该业务***分析方法,通过获取各业务***分别对应的各ETL作业的技术元数据和业务元数据,以及通过DAG工作流作业调度***提取各ETL作业之间的依赖元数据,并根据技术元数据、业务元数据和依赖元数据,分析业务***之间的关联关系,使得对企业业务***进行分析时,能够基于不同业务***对应的各ETL作业间的执行逻辑关系,对业务***之间的关联关系进行分析,以满足随着企业业务***增多和业务数据增长所带来的日益复杂的业务***分析要求。
需要说明的是,本公开实施例所提供的该业务***分析方法中,步骤S201和步骤S202的执行顺序并不局限于前述实施例中所述,也可以是先通过DAG工作流作业调度***提取各业务***分别对应的各ETL作业之间的依赖元数据,再获取各ETL作业的技术元数据和业务元数据;还可以将步骤S201和步骤S202作为并行执行步骤,本公开对此不作任何限定。
图3为本公开实施例提供的业务***分析方法的另一流程示意图。
可选地,如图3所示,上述提取各ETL作业之间的依赖元数据,包括:
S301、获取各ETL作业的作业执行信息,其中,作业执行信息包括各ETL作业的执行时间和执行条件。
可选地,可以通过获取各ETL作业的作业执行信息,并分析各ETL作业间的执行逻辑关系,从而得到各ETL作业之间的依赖元数据。如:可以根据各ETL作业的作业执行信息,分析提取到各ETL作业的执行时间和执行条件,也即各ETL作业间的执行逻辑关系,从而可以作为各ETL作业之间的依赖元数据。例如,对于某个业务***中的ETL作业A,若ETL作业A的执行时间为2019年1月31日12:00,且要求必须到达该时间才可执行ETL作业A,则所获取到ETL作业A的作业执行信息包括:执行时间为“2019年1月31日12:00”,执行条件为“到达执行时间开启”。
S302、根据各ETL作业的执行时间和执行条件,生成各ETL作业对应的静态执行列表。
具体的,可以根据各ETL作业间的执行时间和执行条件,可以得到各ETL作业的执行逻辑关系,通过静态执行列表来描述出来,通常静态执行列表是指一个ETL作业的具体执行实例,是根据ETL作业计划提前计算并生成的执行逻辑关系列表,然后调度***按照这个提前生成的执行逻辑关系列表去执行。
可选地,可根据上述所获取的各业务***分别对应的各ETL作业之间的执行时间和执行条件,生成各ETL作业对应的静态执行列表,从而将该静态执行列表作为业务***分析过程中依赖元数据的来源,以能够随时根据业务***中ETL作业间依赖元数据的变化对其进行更新管理,其中,更新管理包括:将静态执行列表中ETL作业的执行时间或执行条件变更为最新状态,以及根据不同ETL作业间新的执行逻辑关系更新对应的依赖元数据等。
举例说明,若对于某企业业务***中的ETL作业A和ETL作业B,所获取到ETL作业A的作业执行信息包括:执行时间为“2019年1月31日12:00”,执行条件为“到达执行时间开启”;ETL作业B的作业执行信息包括:执行时间为“空”,执行条件为“作业A执行完成”,即ETL作业A是ETL作业B的父作业;则所生成的关于ETL作业A和ETL作业B的静态执行列表如下表1所示。
表1
Figure BDA0001972713960000121
图4为本公开实施例提供的业务***分析方法的又一流程示意图。
可选地,如图4所示,上述根据技术元数据、业务元数据和依赖元数据,分析业务***之间的关联关系,包括:
S401、将业务元数据、技术元数据和静态执行列表的数据格式转换为相同的标准文本格式。
可选地,在本公开部分实施例中,业务元数据采用(Open Information Model,OIM)标准,技术元数据采用公共仓库模型(Common Warehouse Model,CWM)标准,依赖元数据也符合CWM标准。由于在进行业务***分析时,业务元数据、技术元数据和依赖元数据通常需要发生数据交换或数据通信,所以,在该业务***分析方法中,可以先将业务元数据、技术元数据和静态执行列表的数据格式转换为相同的标准文本格式,以简化对上述数据的管理,并提高分析过程中发生数据交换或数据通信时的数据处理速度。
在本公开其他实施例中,也可以无需对业务元数据、技术元数据和依赖元数据进行格式转换,而直接通过其他公共类型数据作中间数据进行数据交换或数据通信,本公开对此不作限定。
S402、根据具有相同标准文本格式的业务元数据、技术元数据和静态执行列表,构建各业务***之间的关系视图。
如上所述,通过对具有相同标准文本格式的业务元数据、技术元数据和静态执行列表进行综合分析,可以确定不同ETL作业间的关联关系和影响关系,进一步可得到业务***与业务***之间的关联关系和影响关系。可选地,可以根据对各业务***的综合分析结果,构建各业务***之间的关系视图。其中,该关系视图能够将业务***中每个ETL作业间的执行逻辑关系、不同ETL作业间的关联关系和影响关系,以及不同业务***间的关联关系和影响关系进行直观的展示。
可选地,在部分实施方式中,上述标准文本格式为可扩展标记语言(eXtensibleMarkup Language,XML)。可将业务元数据、技术元数据和静态执行列表的数据格式转换为XML格式,进而根据同为XML格式的业务元数据、技术元数据和静态执行列表对业务***数据进行分析。
可选地,在本公开实施例中,上述根据各ETL作业的执行时间和执行条件,生成各ETL作业对应的静态执行列表之后,该方法还包括:
按照预设更新规则更新静态执行列表。
具体地,该业务***分析方法中,还可以根据业务***对应的各ETL作业的作业执行信息的变更、ETL作业间执行逻辑关系的变化等,按照预设更新规则对静态执行列表进行更新,以保证业务***分析过程中依赖元数据的准确性。
可选地,上述预设更新规则可以包括:按照预设更新周期进行更新或获取用户的更新触发指令进行更新。其中,当预设更新规则为按照预设更新周期进行更新时,预设更新周期可以为一天、一周、一个月等,每当满足一个预设更新周期时,对静态执行列表进行更新;当预设更新规则为获取用户的更新触发指令进行更新时,可以在接收到用户发出的更新触发指令时,对静态执行列表进行更新,否则,仍保持原静态执行列表不变。
需要说明的是,在本公开部分实施方式中,预设更新规则除上述设置方式外,还可以是根据实际需求,仅更新ETL作业间执行逻辑关系、仅更新ETL作业执行时间、或按照预设更新周期仅更新ETL作业间执行逻辑关系或ETL作业执行时间等,对于预设更新规则的设置可在应用本公开实施例所公开的该业务***分析方法时,针对不同企业、不同业务***或不同ETL作业类型等进行相应地设置,本公开在此不作限定。
为使本领域技术人员能够更直接明了的理解本公开前述实施例中所述的业务***分析方法,本公开将以下述业务***为例,对前述业务***分析方法作更加完整的说明。
图5为本公开实施例提供的业务***关联关系的示意图。
例如,同样假设一个企业中存在三个业务***,分别为业务***1、业务***2和业务***3,其中,业务***1涉及的ETL作业为ETL作业1,涉及到的数据源为数据库1和数据库2,业务***1的数据仓库为业务库1;业务***2涉及的ETL作业为ETL作业2,涉及到的数据源为数据库3和业务库1,业务***2的数据仓库为业务库2;业务***3涉及的ETL作业为ETL作业3和ETL作业4,涉及到的数据源为数据库3和数据库4,业务***3的数据仓库为业务库3。
如图5所示,该企业的作业调度***中包含有上述3个业务***所涉及的4个ETL作业:ETL作业1、ETL作业2、ETL作业3和ETL作业4,其中,ETL作业1中多个任务包括任务1…任务N1,ETL作业2中多个任务包括任务1…任务N2,ETL作业3中多个任务包括任务1…任务N3,ETL作业4中多个任务包括任务1…任务N4,基于本公开实施例提供的业务***分析方法,对该企业业务***分析如下:
1)ETL作业1中的多个ETL任务分别按照数据质量规则对数据库1和数据库2中的数据进行处理,即ETL作业1的数据源为数据库1和数据库2;经过ETL作业1处理后的数据进入到业务库1,即ETL作业1的目标源为业务库1。其中,数据质量规则是指为保证数据质量而对数据的处理规则,例如,对ETL作业1中的某个ETL任务,其对应的数据质量规则可以是一种或多种数据清洗规则,能够对数据库1和数据库2中的数据进行数据清洗,将错误数据和垃圾数据进行清理,以保证数据的质量。
2)ETL作业2中的多个ETL任务分别按照字段替换规则、数据校验规则等对业务库1和数据库3中的数据进行处理,即ETL作业2的数据源为业务库1和数据库3。例如,ETL作业2中的ETL任务1按照字段替换规则对数据库3种的数据进行处理,可以是按照字段替换规则将数据库3中的不规则字段替换为规则字段,使得数据规范化。ETL任务N2按照数据校验规则对业务库1中的数据进行处理,可以是按照数据校验规则对业务库1中的文件名、报文头、账户记录等进行数据校验。经过ETL作业2处理后的数据进入到业务库2,即ETL作业2的目标源为业务库2。
3)根据作业间调度结合ETL作业1和ETL作业2分析,业务库1的数据是ETL作业1经过规则或计算处理后的数据,而ETL作业2中的部分ETL任务需要对业务库1中的数据进行处理,所以,ETL作业2依赖于业务库1,从而可以确定ETL作业2和ETL作业1存在依赖关系,即ETL作业1执行完成才能执行ETL作业2。
4)ETL作业3中的多个ETL任务分别按照数据过滤规则、数据质量规则等对数据库3和数据库4中的数据进行处理,即ETL作业3的数据源为数据库3和数据库4。例如,ETL作业3中的ETL任务1按照数据过滤规则对数据库3种的数据进行处理,可以是按照数据过滤规则将数据库3中不符合规则的相关数据进行过滤,如,数据库3中若存在一组不等长的字段,数据过滤规则可以为“字段长度小于a的字段进行过滤”等。ETL任务N3按照数据质量规则对数据库4中的数据进行处理,可参考前述ETL作业1中所述内容。经过ETL作业3处理后的数据进入到业务库3,即ETL作业3的目标源为业务库3。数据进行了相关处理,经过多种数据规则处理后的数据到达业务***3。
5)ETL作业4中的多个ETL任务分别按照字段处理规则、数据治理规则等对数据库3和数据库4中的数据进行处理,即ETL作业4的数据源为数据库3和数据库4。例如,ETL作业4中的ETL任务1按照字段处理规则对数据库3种的数据进行处理,可以是按照字段处理规则将数据库3中相关字段进行填充或删减,如,数据库3中若存在一组身份信息为“XX省XX市XX县XX乡XX村”,字段处理规则要求将身份信息处理为“XX省XX市”的格式,则ETL任务1可根据字段处理规则将该身份信息中的“XX县XX乡XX村”进行删除。ETL任务N4按照数据治理规则对数据库4中的数据进行处理,可以是将数据库4中的一些零散数据变为统一主数据,将其从具有很少或没有组织和流程治理到企业范围内井井有条的数据等。经过ETL作业4处理后的数据进入到业务库3,即ETL作业4的目标源为业务库3。
6)根据作业间调度结合ETL作业3和ETL作业4分析,ETL作业3的目标源是业务库3,ETL作业4的目标源也是业务库3,但是ETL作业3中的部分ETL任务执行依赖于ETL作业4中治理或其他规则处理的数据。所以,由ETL作业3中的ETL任务执行依赖于ETL作业4,可以确定ETL作业3与ETL作业4之间存在执行逻辑关系,即,ETL作业4执行完成才能执行ETL作业3。
基于上述分析,则对业务***之间的关联关系的具体分析过程如下:
ETL作业2、ETL作业3、ETL作业4都使用数据库3作为数据源,而ETL作业2将业务库2作为目标源,ETL作业3和ETL作业4将业务库3作为目标源,那么数据库3中数据的变更对业务库2和业务库3将会产生影响,也即,会对业务***2和业务***3产生影响。
ETL作业2还使用了业务库1作为数据源,而业务库1为ETL作业1的目标源,数据库1为ETL作业1的数据源,所以数据库1、ETL作业1中的ETL任务和业务库1的变更,会对业务库2产生影响,也即,会对业务***2产生影响。
由上所述,业务***2与业务***1之间存在强关联,业务***1中的数据变更对业务***2影响较大。
以上述企业业务***为例,本公开实施例还提供一种业务***分析方法。
图6示出了本公开实施例提供的业务***分析方法的又一流程示意图。
如图6所示,该业务***分析方法包括:
S601、获取各业务***分别对应的各ETL作业的技术元数据和业务元数据。
以上述图5所示的业务***为例,可以获取到ETL作业1、ETL作业2、ETL作业3和ETL作业4的技术元数据和业务元数据。
S602、通过DAG工作流作业调度***,获取各ETL作业的作业执行信息,其中,作业执行信息包括各ETL作业的执行时间和执行条件。具体地,还能够通过DAG工作流作业调度***获取上述4个ETL作业的作业执行信息,如:每个ETL作业的执行时间、执行条件等。
可选地,上述作业调度***开启的执行时间为“2018.8.31-00:00:00”,执行条件为“到达执行时间开启”,作业调度***关闭的执行条件为“各ETL作业执行完成”,上述4个ETL作业分别对应的执行时间和执行条件如下:
ETL作业1:执行时间为“2018.8.31-02:00:00”,执行条件为“调度***开启和执行时间同时满足”;
ETL作业2:执行时间为“空”,执行条件为“ETL作业1执行完成”,即ETL作业1是ETL作业2的ETL父作业;
ETL作业3:执行时间为“空”,执行条件为“ETL作业4执行完成”,即ETL作业4是ETL作业3的ETL父作业;
ETL作业4:执行时间为“2018.8.31-04:00:00”,执行条件为“调度***开启和执行时间同时满足”。S603、根据各ETL作业的执行时间和执行条件,生成各ETL作业对应的静态执行列表。
可选地,以上述4个ETL作业分别对应的执行时间和执行条件为例,所生成的静态执行列表如下表2所示:
表2
Figure BDA0001972713960000191
Figure BDA0001972713960000201
如表2所示,当到达执行时间时,调度***开启,并根据各ETL作业的执行条件和执行时间分别执行ETL作业1、ETL作业2、ETL作业3和ETL作业4,当各ETL作业执行完成后,调度***关闭。
S604、将业务元数据、技术元数据和静态执行列表的数据格式转换为XML格式。
可选地,以上述静态执行列表为例,将上述静态执行列表转换为XML格式后,静态执行列表对应的XML文档如下:
<execution_plan>
<job>
<id>0</id>
<name>start</name>
<exec_time>00:00:00</exec_time>
</job>
<job>
<id>1</id>
<name>作业1</name>
<exec_time>02:00:00</exec_time>
<depend_job>0</depend_job>
</job>
<job>
<id>2</id>
<name>作业2</name>
<depend_job>1</depend_job>
</job>
<job>
<id>4</id>
<name>作业4</name>
<exec_time>04:00:00</exec_time>
<depend_job>0</depend_job>
</job>
<job>
<id>3</id>
<name>作业3</name>
<exec_time>02:00:00</exec_time>
<depend_job>4</depend_job>
</job>
<job>
<id>-1</id>
<name>end</name>
<depend_job>[2、3]</depend_job>
</job>
<execution_plan>
S605、根据均为XML格式的业务元数据、技术元数据和静态执行列表,构建各业务***之间的关系视图。
上述可选实施方式中,该业务***分析方法所具备的有益效果,均已在前述方法实施例中作以描述,本公开在此不再赘述。
图7为本公开实施例提供的业务***分析装置的结构示意图。
如图7所示,该业务***分析装置,包括:获取模块701,用于获取各业务***分别对应的各ETL作业的技术元数据和业务元数据;提取模块702,用于通过有向无环图DAG工作流作业调度***,提取各ETL作业之间的依赖元数据,依赖元数据包括各ETL作业间的执行逻辑关系;分析模块703,用于根据技术元数据、业务元数据和依赖元数据,分析业务***之间的关联关系。
图8为本公开实施例提供的业务***分析装置的另一结构示意图。
可选地,如图8所示,上述业务***分析装置中,提取模块702包括:获取子模块801,用于获取各ETL作业的作业执行信息,其中,作业执行信息包括各ETL作业的执行时间和执行条件;生成子模块802,用于根据各ETL作业的执行时间和执行条件,生成各ETL作业对应的静态执行列表。
图9为本公开实施例提供的业务***分析装置的又一结构示意图。
如图9所示,上述业务***分析装置中,分析模块703包括:转换子模块901,用于将业务元数据、技术元数据和静态执行列表的数据格式转换为相同的标准文本格式;构建子模块902,用于根据具有相同标准文本格式的业务元数据、技术元数据和静态执行列表,构建各业务***之间的关系视图。
可选地,上述标准文本格式为可扩展标记语言XML。
可选地,上述生成子模块802还用于按照预设更新规则更新静态执行列表。
上述装置用于执行前述方法实施例,可以集成于服务器、计算机等计算设备,其实现原理和技术效果可以参照前述方法实施例,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上***(system-on-a-chip,简称SOC)的形式实现。
图10为本公开实施例提供的电子设备的结构示意图。
如图10所示,该电子设备包括存储器1002、处理器1001,存储器1002中存储有可在处理器1001上运行的计算机程序,处理器1001执行计算机程序时实现上述业务***分析方法的步骤。具体实现方式和技术效果类似,这里不再赘述。
可选地,本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述业务***分析方法的步骤。
在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本公开各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本公开的优选实施例,并非因此限制本公开的专利范围,凡是利用本公开说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本公开的专利保护范围内。

Claims (8)

1.一种业务***分析方法,其特征在于,所述方法包括:
获取各业务***分别对应的各抽取-转换-装载ETL作业的技术元数据和业务元数据;
通过有向无环图DAG工作流作业调度***,提取各ETL作业之间的依赖元数据,所述依赖元数据包括各ETL作业间的执行逻辑关系;
根据所述技术元数据、业务元数据和依赖元数据,分析业务***之间的关联关系;
所述提取各ETL作业之间的依赖元数据,包括:
获取所述各ETL作业的作业执行信息,其中,所述作业执行信息包括所述各ETL作业的执行时间和执行条件;
根据所述各ETL作业的执行时间和执行条件,生成所述各ETL作业对应的静态执行列表;
从所述静态执行列表中提取所述依赖元数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述技术元数据、业务元数据和依赖元数据,分析业务***之间的关联关系,包括:
将所述业务元数据、所述技术元数据和所述静态执行列表的数据格式转换为相同的标准文本格式;
根据具有相同标准文本格式的所述业务元数据、所述技术元数据和所述静态执行列表,构建所述各业务***之间的关系视图。
3.根据权利要求2所述的方法,其特征在于,所述标准文本格式为可扩展标记语言XML。
4.根据权利要求1所述的方法,其特征在于,所述根据所述各ETL作业的执行时间和执行条件,生成所述各ETL作业对应的静态执行列表之后,所述方法还包括:
按照预设更新规则更新所述静态执行列表。
5.一种业务***分析装置,其特征在于,包括:获取模块、提取模块和分析模块;
所述获取模块,用于获取各业务***分别对应的各ETL作业的技术元数据和业务元数据;
所述提取模块,用于通过有向无环图DAG工作流作业调度***,提取各ETL作业之间的依赖元数据,所述依赖元数据包括各ETL作业间的执行逻辑关系;
所述分析模块,用于根据所述技术元数据、业务元数据和依赖元数据,分析业务***之间的关联关系;
所述提取模块还包括:获取子模块和生成子模块;
所述获取子模块,用于获取所述各ETL作业的作业执行信息,其中,所述作业执行信息包括所述各ETL作业的执行时间和执行条件;
所述生成子模块,用于根据所述各ETL作业的执行时间和执行条件,生成所述各ETL作业对应的静态执行列表,并且从所述静态执行列表中提取所述依赖元数据。
6.根据权利要求5所述的装置,其特征在于,所述分析模块包括:转换子模块和构建子模块;
所述转换子模块,用于将所述业务元数据、所述技术元数据和所述静态执行列表的数据格式转换为相同的标准文本格式;
所述构建子模块,用于根据具有相同标准文本格式的所述业务元数据、所述技术元数据和所述静态执行列表,构建所述各业务***之间的关系视图。
7.根据权利要求6所述的装置,其特征在于,所述标准文本格式为可扩展标记语言XML。
8.根据权利要求5所述的装置,其特征在于,所述生成子模块还用于按照预设更新规则更新所述静态执行列表。
CN201910124636.XA 2019-02-19 2019-02-19 业务***分析方法和装置 Active CN109902117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910124636.XA CN109902117B (zh) 2019-02-19 2019-02-19 业务***分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910124636.XA CN109902117B (zh) 2019-02-19 2019-02-19 业务***分析方法和装置

Publications (2)

Publication Number Publication Date
CN109902117A CN109902117A (zh) 2019-06-18
CN109902117B true CN109902117B (zh) 2021-07-06

Family

ID=66945106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910124636.XA Active CN109902117B (zh) 2019-02-19 2019-02-19 业务***分析方法和装置

Country Status (1)

Country Link
CN (1) CN109902117B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111176802B (zh) * 2019-07-26 2023-03-14 腾讯科技(深圳)有限公司 任务处理方法、装置、电子设备及存储介质
CN110580265B (zh) * 2019-09-16 2020-11-20 北京三快在线科技有限公司 Etl任务的处理方法、装置、设备及存储介质
CN110795479A (zh) * 2019-10-08 2020-02-14 中国建设银行股份有限公司 基于数据的分布式etl调度的方法和装置
CN111506659A (zh) * 2020-04-20 2020-08-07 杭州数澜科技有限公司 一种数据同步的方法、***和介质
CN111694890A (zh) * 2020-06-30 2020-09-22 望海康信(北京)科技股份公司 关系图表的生成方法、装置、计算机设备及存储介质
CN112115192B (zh) * 2020-10-09 2021-07-02 北京东方通软件有限公司 一种etl***的高效流程编排方法和***
CN112364096B (zh) * 2021-01-13 2021-07-06 天云融创数据科技(北京)有限公司 基于复杂网络的高维元数据管理***和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252381A (zh) * 2013-06-30 2014-12-31 北京百度网讯科技有限公司 一种用于调度etl任务的方法与设备
CN104809597A (zh) * 2015-05-14 2015-07-29 国家电网公司 基于数据融合的数据资源管理平台
CN105868190A (zh) * 2015-01-19 2016-08-17 ***通信集团河北有限公司 一种在etl中优化任务处理的方法及***
CN106096865A (zh) * 2016-06-29 2016-11-09 国网浙江省电力公司 一种电力营销业扩全流程信息公开与实施管控***集成方法
CN107391611A (zh) * 2017-07-04 2017-11-24 南京国电南自电网自动化有限公司 一种基于工作流的通用etl工具的过程模型生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075304A (zh) * 2006-05-18 2007-11-21 河北全通通信有限公司 电信行业基于数据仓库的决策支持***的构造方法
CN102073698B (zh) * 2010-12-28 2012-10-17 中国工商银行股份有限公司 企业级数据仓库***的样本数据获取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252381A (zh) * 2013-06-30 2014-12-31 北京百度网讯科技有限公司 一种用于调度etl任务的方法与设备
CN105868190A (zh) * 2015-01-19 2016-08-17 ***通信集团河北有限公司 一种在etl中优化任务处理的方法及***
CN104809597A (zh) * 2015-05-14 2015-07-29 国家电网公司 基于数据融合的数据资源管理平台
CN106096865A (zh) * 2016-06-29 2016-11-09 国网浙江省电力公司 一种电力营销业扩全流程信息公开与实施管控***集成方法
CN107391611A (zh) * 2017-07-04 2017-11-24 南京国电南自电网自动化有限公司 一种基于工作流的通用etl工具的过程模型生成方法

Also Published As

Publication number Publication date
CN109902117A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN109902117B (zh) 业务***分析方法和装置
EP3475884B1 (en) System and method for automated mapping of data types for use with dataflow environments
US9477786B2 (en) System for metadata management
US9800675B2 (en) Methods for dynamically generating an application interface for a modeled entity and devices thereof
US8712965B2 (en) Dynamic report mapping apparatus to physical data source when creating report definitions for information technology service management reporting for peruse of report definition transparency and reuse
US10216814B2 (en) Supporting combination of flow based ETL and entity relationship based ETL
US9311357B2 (en) Generating reports based on materialized view
EP2784700A2 (en) Integration of transactional and analytical capabilities of a database management system
US20080162550A1 (en) Representation of multiplicities for Docflow reporting
US9251222B2 (en) Abstracted dynamic report definition generation for use within information technology infrastructure
US8656359B2 (en) Debugging data mappings
US9201700B2 (en) Provisioning computer resources on a network
US9430520B2 (en) Semantic reflection storage and automatic reconciliation of hierarchical messages
Groth et al. Recording process documentation for provenance
US20110131247A1 (en) Semantic Management Of Enterprise Resourses
US9189566B2 (en) Facilitating extraction and discovery of enterprise services
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
US20060112153A1 (en) Export queue for an enterprise software system
Ganguly et al. Evaluations of conceptual models for semi-structured database system
US20140143278A1 (en) Application programming interface layers for analytical applications
Scannapieco et al. IP-UML
US20210149639A1 (en) Data integrity analysis tool

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant