CN110580265A - Etl任务的处理方法、装置、设备及存储介质 - Google Patents

Etl任务的处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110580265A
CN110580265A CN201910872609.0A CN201910872609A CN110580265A CN 110580265 A CN110580265 A CN 110580265A CN 201910872609 A CN201910872609 A CN 201910872609A CN 110580265 A CN110580265 A CN 110580265A
Authority
CN
China
Prior art keywords
etl task
etl
evaluation
determining
evaluation parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910872609.0A
Other languages
English (en)
Other versions
CN110580265B (zh
Inventor
朱林林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910872609.0A priority Critical patent/CN110580265B/zh
Publication of CN110580265A publication Critical patent/CN110580265A/zh
Application granted granted Critical
Publication of CN110580265B publication Critical patent/CN110580265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种ETL任务的处理方法、装置、设备及存储介质。所述方法包括:获取ETL任务的元数据信息;根据元数据信息确定ETL任务的评价参数,该评价参数用于表征ETL任务的价值;根据评价参数对ETL任务进行处理。本申请实施例提供的技术方案中,通过获取ETL任务的元数据信息,根据该元数据信息确定该ETL任务的评价参数,然后基于该评价参数对ETL任务进行处理;从而通过对ETL任务进行量化评估,实现了对ETL任务的价值的量化表征,进而实现了对ETL任务的自动化管理,相比于人工管理的方式,效率更高,且成本更低。

Description

ETL任务的处理方法、装置、设备及存储介质
技术领域
本申请实施例涉及计算机和互联网技术领域,特别涉及一种ETL任务的处理方法、装置、设备及存储介质。
背景技术
ETL(Extract-Transform-Load,抽取-转换-加载)任务是一种用于实现对数据进行处理的任务,常用在数据库***和数据仓库中。
在相关技术中,对于已经发布上线的ETL任务,需要人工对其进行核查,以决策是否需要下线该ETL任务。
发明内容
本申请实施例提供了一种ETL任务的处理方法、装置、设备及存储介质。
所述技术方案如下:
一方面,本申请实施例提供一种ETL任务的处理方法,所述方法包括:
获取ETL任务的元数据信息;
根据所述元数据信息,确定所述ETL任务的评价参数;其中,所述评价参数用于表征所述ETL任务的价值;
根据所述评价参数对所述ETL任务进行处理。
另一方面,本申请实施例提供一种ETL任务的处理装置,所述装置包括:
信息获取模块,用于获取ETL任务的元数据信息;
参数确定模块,用于根据所述元数据信息,确定所述ETL任务的评价参数;其中,所述评价参数用于表征所述ETL任务的价值;
任务处理模块,用于根据所述评价参数对所述ETL任务进行处理。
再一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述ETL任务的处理方法。
又一方面,本申请实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述ETL任务的处理方法。
本申请实施例提供的技术方案可以带来如下有益效果:
通过获取ETL任务的元数据信息,根据该元数据信息确定该ETL任务的评价参数,然后基于该评价参数对ETL任务进行处理;从而通过对ETL任务进行量化评估,实现了对ETL任务的价值的量化表征,进而实现了对ETL任务的自动化管理,相比于人工管理的方式,效率更高,且成本更低。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的ETL任务的处理方法的流程图;
图2是本申请另一个实施例提供的ETL任务的处理方法的流程图;
图3是本申请一个实施例提供的ETL任务的评价参数的示意图;
图4是本申请一个实施例提供的ETL任务的处理装置的框图;
图5是本申请另一个实施例提供的ETL任务的处理装置的框图;
图6是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供的方法,各步骤的执行主体可以是计算机设备,该计算机设备可以是任何具备数据处理和存储功能的电子设备,如PC(Personal Computer,个人计算机)或服务器等。为了便于说明,在下述方法实施例中,仅以各步骤的执行主体为计算机设备进行介绍说明。
请参考图1,其示出了本申请一个实施例提供的ETL任务的处理方法的流程图,该方法可以包括如下几个步骤(101~103):
步骤101,获取ETL任务的元数据信息。
ETL任务的元数据信息,是指与该ETL任务相关的信息,如能够反映该ETL任务在多个不同维度的特征或属性的信息。例如,ETL任务的元数据信息包括能够反映该ETL任务在新鲜度、复杂度、成本度、依赖度和查询度等多个不同维度的特征或属性的信息。
步骤102,根据元数据信息确定ETL任务的评价参数。
ETL任务的评价参数用于表征该ETL任务的价值。可选地,ETL任务的评价参数与该ETL任务的价值呈正相关关系,ETL任务的评价参数越高,表明该ETL任务的价值就越高;反之,ETL任务的评价参数越低,表明该ETL任务的价值就越低。可选地,上述评价参数可以是一个分值。
在一种可能的实施方式中,可以从ETL任务的元数据信息中提取多个维度的信息,然后分别根据各个维度的信息,计算该ETL任务在各个维度的子评价参数,综合该ETL任务在各个维度的子评价参数,得到该ETL任务的评价参数。
在另一种可能的实施方式中,可以采用机器学习模型对ETL任务的元数据信息进行处理,输出该ETL任务的评价参数。该机器学习模型可以称为ETL评分模型,其可以采用机器学习算法对神经网络进行训练得到。该机器学习模型的输入参数可以包括从ETL任务的元数据信息中提取得到的多个维度的信息,通过该机器学习模型对上述多个维度的信息进行特征提取、重组和抽象等处理,最终输出该ETL任务的评价参数。
步骤103,根据评价参数对ETL任务进行处理。
由于ETL任务的评价参数表征了该ETL任务的价值,在确定ETL任务的评价参数之后,便可以对该ETL任务进行处理,例如对评价参数较低(也即价值较低)的ETL任务进行下线处理,对评价参数较高(也即价值较高)的ETL任务可以保留在线上运行。
综上所述,本申请实施例提供的技术方案中,通过获取ETL任务的元数据信息,根据该元数据信息确定该ETL任务的评价参数,然后基于该评价参数对ETL任务进行处理;从而通过对ETL任务进行量化评估,实现了对ETL任务的价值的量化表征,进而实现了对ETL任务的自动化管理,相比于人工管理的方式,效率更高,且成本更低。
请参考图2,其示出了本申请另一个实施例提供的ETL任务的处理方法的流程图,该方法可以包括如下几个步骤(201~204):
步骤201,获取ETL任务的元数据信息。
ETL任务的元数据信息,是指与该ETL任务相关的信息,如能够反映该ETL任务在多个不同维度的特征或属性的信息。例如,ETL任务的元数据信息包括能够反映该ETL任务在新鲜度、复杂度、成本度、依赖度和查询度等多个不同维度的特征或属性的信息。
步骤202,根据元数据信息确定ETL任务的n个子评价参数,该n个子评价参数包括复杂度评价参数、成本度评价参数和依赖度评价参数,n为正整数。
在本申请实施例中,可以从复杂度、成本度和依赖度这3个不同维度,对ETL任务进行价值评估。
可选地,上述n个子评价参数还包括新鲜度评价参数和/或查询度评价参数。在一种可能的实现方式中,可以从新鲜度、复杂度、成本度、依赖度和查询度这5个不同维度,对ETL任务进行价值评估。
新鲜度评价参数用于表征ETL任务的新鲜度,如新鲜度评价参数可以和新鲜度呈正相关关系,一个ETL任务的新鲜度评价参数越高,则表明该ETL任务的新鲜度越高;反之,一个ETL任务的新鲜度评价参数越低,则表明该ETL任务的新鲜度越低。
示例性地,新鲜度评价参数可以采用如下方式确定:
1、根据ETL任务的元数据信息,确定该ETL任务的已上线时长;
2、根据该ETL任务的已上线时长,确定该ETL任务的新鲜度评价参数。
ETL任务的已上线时长可以根据该ETL任务的上线时间与当前时间进行计算得到。可选地,新鲜度评价参数与已上线时长呈负相关关系。也即,已上线时长越短,新鲜度评价参数就越高,表明该ETL任务的新鲜度越高;反之,已上线时长越长,新鲜度评价参数就越低,表明该ETL任务的新鲜度越低。
在一个示例中,可以采用一个预设常数除以ETL任务的已上线时长,得到该ETL任务的新鲜度评价参数。当然,上述示例仅是示例性和解释性的,还可以设定其它的计算公式,或者采用查询映射关系表的方式,根据该ETL任务的已上线时长,确定该ETL任务的新鲜度评价参数,本申请实施例对此不作限定。
复杂度评价参数用于表征ETL任务的复杂度,如复杂度评价参数可以和复杂度呈正相关关系,一个ETL任务的复杂度评价参数越高,则表明该ETL任务的复杂度越高;反之,一个ETL任务的复杂度评价参数越低,则表明该ETL任务的复杂度越低。
示例性地,复杂度评价参数可以采用如下方式确定:
1、根据ETL任务的元数据信息,确定该ETL任务的复杂度等级;
2、根据该ETL任务的复杂度等级,确定该ETL任务的复杂度评价参数。
ETL任务的复杂度等级可以预先设定,例如包括非常简单、比较简单、中等、比较复杂和非常复杂共5种等级,每一种等级对应于不同的复杂度评价参数。可选地,复杂度评价参数与复杂度等级呈正相关关系。也即,复杂度等级越高,复杂度评价参数就越高,表明该ETL任务的复杂度越高;反之,复杂度等级越低,复杂度评价参数就越低,表明该ETL任务的复杂度越低。
在一个示例中,可以从ETL任务的元数据信息中提取出复杂度信息,该复杂度信息是指用于表征ETL任务的复杂度的信息,如一些与复杂度相关的信息,如逻辑计划深度、读取表的个数、读取表的数据量等信息,基于上述这些复杂度信息,确定出该ETL任务的复杂度等级。例如,可以通过查询映射关系表的方式,也可以通过机器学习模型的方式,或者采用其它方式,基于上述这些复杂度信息,确定出该ETL任务的复杂度等级。例如,计算机设备查询第一映射关系表,将与从ETL任务的元数据信息中提取的复杂度信息对应的复杂度等级,确定为该ETL任务的复杂度等级;其中,第一映射关系表包括至少一组复杂度信息和复杂度等级之间的映射关系。
成本度评价参数用于表征ETL任务的成本度,如成本度评价参数可以和成本度呈正相关关系,一个ETL任务的成本度评价参数越高,则表明该ETL任务的成本度越高;反之,一个ETL任务的成本度评价参数越低,则表明该ETL任务的成本度越低。
示例性地,成本度评价参数可以采用如下方式确定:
1、根据ETL任务的元数据信息,确定该ETL任务的成本信息,该成本信息可以包括以下至少一个维度的信息:计算成本、存储成本和时间成本;
2、根据该ETL任务的成本信息,确定该ETL任务的成本度评价参数。
其中,计算成本是指执行该ETL任务所需要的计算和处理资源的量,如CPU占用率等,存储成本是指存储该ETL任务所需要的存储资源的量,如该ETL任务在存储设备中的数据量,时间成本是指执行该ETL任务所需要的时间。
另外,计算机设备可以通过查询映射关系表的方式,也可以通过机器学习模型的方式,或者采用其它方式,基于ETL任务的成本信息,确定该ETL任务的成本度评价参数。
另外,在计算ETL任务的成本度评价参数时,可以给不同维度的成本信息分配相同或者不同的权重。例如,计算成本、存储成本和时间成本对应的权重分别为0.25、0.25和0.5。该权重可以结合实际情况预先设定和调节,本申请实施例对此不作限定。计算机设备根据ETL任务的各个维度的成本信息以及对应的权重,计算该ETL任务的成本度评价参数。通过上述方式,可以灵活调节不同维度的成本信息对ETL任务的成本度的影响比重,提升成本度评价的灵活性和准确性。
依赖度评价参数用于表征ETL任务的依赖度,如依赖度评价参数可以和依赖度呈正相关关系,一个ETL任务的依赖度评价参数越高,则表明该ETL任务的依赖度越高;反之,一个ETL任务的依赖度评价参数越低,则表明该ETL任务的依赖度越低。
示例性地,依赖度评价参数可以采用如下方式确定:
1、根据ETL任务的元数据信息,确定该ETL任务的下游依赖任务的数量;
2、根据该ETL任务的下游依赖任务的数量,确定该ETL任务的依赖度评价参数。
ETL任务的下游依赖任务是指在执行时需要依赖于该ETL任务的执行结果的其它ETL任务。可选地,依赖度评价参数与下游依赖任务的数量呈正相关关系。也即,下游依赖任务的数量越多,依赖度评价参数就越高,表明该ETL任务的依赖度越高;反之,下游依赖任务的数量越少,依赖度评价参数就越低,表明该ETL任务的依赖度越低。
另外,计算机设备可以通过查询映射关系表的方式,也可以通过公式计算的方式,或者采用其它方式,基于ETL任务的下游依赖任务的数量,确定该ETL任务的依赖度评价参数。在一个示例中,计算机设备查询第二映射关系表,将与ETL任务的下游依赖任务的数量对应的依赖度评价参数,确定为该ETL任务的依赖度评价参数;其中,第二映射关系表包括至少一组下游依赖任务的数量和依赖度评价参数之间的映射关系。
查询度评价参数用于表征ETL任务的查询度,如查询度评价参数可以和查询度呈正相关关系,一个ETL任务的查询度评价参数越高,则表明该ETL任务的查询度越高;反之,一个ETL任务的查询度评价参数越低,则表明该ETL任务的查询度越低。
示例性地,查询度评价参数可以采用如下方式确定:
1、根据ETL任务的元数据信息,确定该ETL任务在目标时段内的查询次数;
2、根据该ETL任务在目标时段内的查询次数,确定该ETL任务的查询度评价参数。
上述目标时段可以是预先设定的一个时段,例如该目标时段可以是从当前时刻开始往前的一个历史时间段。目标时段的时长可以结合实际情况预先设定,例如目标时段可以是30天、60天或120天等。ETL任务在目标时段内的查询次数,是指该ETL任务在目标时段内,被执行的总次数。可选地,查询度评价参数与查询次数呈正相关关系。也即,查询次数越多,查询度评价参数就越高,表明该ETL任务的查询度越高;反之,查询次数越少,查询度评价参数就越低,表明该ETL任务的查询度越低。
另外,计算机设备可以通过查询映射关系表的方式,也可以通过公式计算的方式,或者采用其它方式,基于该ETL任务在目标时段内的查询次数,确定该ETL任务的查询度评价参数。
在一个示例中,可以计算ETL任务在多个不同的历史时段内的平均查询次数,然后根据该多个不同的历史时段内的平均查询次数,采用加权求和的方式,计算得到该ETL任务的查询度评价参数。例如,计算该ETL任务在最近30天内、60天内、90天内、120天内的平均查询次数,其中最近30天内、60天内、90天内、120天内的平均查询次数各自对应的权重分别为0.4、0.3、0.2和0.1,采用加权求和的方式,计算得到该ETL任务的查询度评价参数。历史时段距离当前时间越接近,则相应的权重可以越高。通过上述方式,可以灵活调节不同历史时段内的平均查询次数对ETL任务的查询度的影响比重,提升查询度评价的灵活性和准确性。
需要说明的是,在本申请实施例中,仅从新鲜度、复杂度、成本度、依赖度和查询度这5个不同维度,对ETL任务进行量化评估为例,进行介绍说明。在实际应用中,可以根据实际需求,增加、修改或者删减对ETL任务进行量化评估的维度,本申请实施例对此不作限定。另外,上文介绍的各个维度的子评价参数计算方式,仅是示例性和解释性的,在实际应用中,可以灵活设计和调整。
步骤203,根据n个子评价参数计算ETL任务的评价参数。
计算机设备在确定ETL任务的多个不同维度的子评价参数之后,便可以进一步计算出该ETL任务的最终评价参数。
在一个示例中,将n个子评价参数相加,得到ETL任务的评价参数。例如,ETL任务的新鲜度评价参数、复杂度评价参数、成本度评价参数、依赖度评价参数和查询度评价参数依次为8、6、7、8、10,则该ETL任务的评价参数为8+6+7+8+10=39。
在另一个示例中,将n个子评价参数进行加权求和,得到ETL任务的评价参数。例如,ETL任务的新鲜度评价参数、复杂度评价参数、成本度评价参数、依赖度评价参数和查询度评价参数依次为8、6、7、8、10,上述5个维度的权重依次为0.1、0.1、0.3、0.3和0.2,则该ETL任务的评价参数为8×0.1+6×0.1+7×0.3+8×0.3+10×0.2=7.9。
当然,还可以采用其它方式根据n个子评价参数计算ETL任务的评价参数,例如将n个子评价参数的平均值作为ETL任务的评价参数等,本申请实施例对此不作限定。
需要说明的一点是,上述新鲜度评价参数、复杂度评价参数、成本度评价参数、依赖度评价参数和查询度评价参数等多个不同维度的子评价参数,各自的分值取值范围可以相同,也可以不同。例如,如图3所示,每个维度的子评价参数的分值取值范围均为[0,10],如果将5个维度的子评价参数相加得到ETL任务的评价参数,则该ETL任务的评价参数的取值范围即为[0,50]。
步骤204,根据评价参数对ETL任务进行处理。
由于ETL任务的评价参数表征了该ETL任务的价值,在确定ETL任务的评价参数之后,便可以对该ETL任务进行处理。
在一个示例中,若ETL任务的评价参数处于第一取值区间,则对该ETL任务进行下线处理;若ETL任务的评价参数处于第二取值区间,则对该ETL任务进行优化处理;若ETL任务的评价参数处于第三取值区间,则保持该ETL任务进行线上运行;其中,第一取值区间小于第二取值区间,且第二取值区间小于第三取值区间。
例如,假设ETL任务的评价参数的取值范围为[0,50],则当ETL任务的评价参数在[0,10]时,对该ETL任务进行下线处理;当ETL任务的评价参数在[11,30]时,对该ETL任务进行优化处理;当ETL任务的评价参数在[31,50]时,认为该ETL任务为正常认为,保持该ETL任务进行线上运行,且不需要进行优化处理。
综上所述,本申请实施例提供的技术方案中,通过获取ETL任务的元数据信息,根据该元数据信息确定该ETL任务的评价参数,然后基于该评价参数对ETL任务进行处理;从而通过对ETL任务进行量化评估,实现了对ETL任务的价值的量化表征,进而实现了对ETL任务的自动化管理,相比于人工管理的方式,效率更高,且成本更低。
另外,还通过从新鲜度、复杂度、成本度、依赖度和查询度这5个不同维度,对ETL任务进行量化评估,考虑的评价维度更加全面,提升了ETL任务评价的准确性,使得对ETL任务进行优化或下线处理的准确率也得到提高。
另外,采用本申请实施例提供的技术方案,当需要对大批量的ETL任务进行处理时,可以一次性筛选出大部分需要下线的任务,以及一次性筛选出大部分需要优化的任务,充分提升了对ETL任务的管理效率。
另外,本申请实施例提供的技术方案,可以应用在任何需要对ETL任务进行管理的场景中,如数据处理和数据仓库等领域。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图4,其示出了本申请一个实施例提供的ETL任务的处理装置的框图。该装置具有实现上述方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备,也可以设置在计算机设备中。如图4所示,该装置400可以包括:信息获取模块410、参数确定模块420和任务处理模块430。
信息获取模块410,用于获取ETL任务的元数据信息。
参数确定模块420,用于根据所述元数据信息,确定所述ETL任务的评价参数;其中,所述评价参数用于表征所述ETL任务的价值。
任务处理模块430,用于根据所述评价参数对所述ETL任务进行处理。
在示例性实施例中,如图5所示,所述参数确定模块420,包括:参数确定子模块421和参数计算子模块422。
参数确定子模块421,用于根据所述元数据信息,确定所述ETL任务的n个子评价参数,所述n个子评价参数包括复杂度评价参数、成本度评价参数和依赖度评价参数,所述n为正整数。
参数计算子模块422,用于根据所述n个子评价参数计算所述ETL任务的所述评价参数。
可选地,所述n个子评价参数还包括新鲜度评价参数和/或查询度评价参数。
在示例性实施例中,如图5所示,所述参数确定子模块421,包括新鲜度确定单元421a,用于:根据所述元数据信息,确定所述ETL任务的已上线时长;根据所述ETL任务的已上线时长确定所述ETL任务的新鲜度评价参数;其中,所述新鲜度评价参数与所述已上线时长呈负相关关系。
在示例性实施例中,如图5所示,所述参数确定子模块421,包括复杂度确定单元421b,用于:根据所述元数据信息,确定所述ETL任务的复杂度等级;根据所述ETL任务的复杂度等级确定所述ETL任务的复杂度评价参数;其中,所述复杂度评价参数与所述复杂度等级呈正相关关系。
可选地,所述复杂度确定单元421b,用于:从所述元数据信息中提取复杂度信息,所述复杂度信息是指用于表征所述ETL任务的复杂度的信息;查询第一映射关系表,将与所述复杂度信息对应的复杂度等级,确定为所述ETL任务的复杂度等级;其中,所述第一映射关系表包括至少一组复杂度信息和复杂度等级之间的映射关系。
在示例性实施例中,如图5所示,所述参数确定子模块421,包括成本度确定单元421c,用于:根据所述元数据信息,确定所述ETL任务的成本信息,所述成本信息包括以下至少一个维度的信息:计算成本、存储成本和时间成本;根据所述ETL任务的成本信息确定所述ETL任务的成本度评价参数。
可选地,所述成本度确定单元421c,用于:根据所述ETL任务的各个维度的成本信息以及对应的权重,计算所述ETL任务的成本度评价参数。
在示例性实施例中,如图5所示,所述参数确定子模块421,包括依赖度确定单元421d,用于:根据所述元数据信息,确定所述ETL任务的下游依赖任务的数量;根据所述ETL任务的下游依赖任务的数量确定所述ETL任务的依赖度评价参数;其中,所述依赖度评价参数与所述下游依赖任务的数量呈正相关关系。
可选地,所述依赖度确定单元421d,用于:查询第二映射关系表,将与所述ETL任务的下游依赖任务的数量对应的依赖度评价参数,确定为所述ETL任务的依赖度评价参数;其中,所述第二映射关系表包括至少一组下游依赖任务的数量和依赖度评价参数之间的映射关系。
在示例性实施例中,如图5所示,所述参数确定子模块421,包括查询度确定单元421e,用于:根据所述元数据信息,确定所述ETL任务在目标时段内的查询次数;根据所述查询次数确定所述ETL任务的查询度评价参数;其中,所述查询度评价参数与所述查询次数呈正相关关系。
在示例性实施例中,如图5所示,所述参数计算子模块422,用于:将所述n个子评价参数相加,得到所述ETL任务的所述评价参数;或者,将所述n个子评价参数进行加权求和,得到所述ETL任务的所述评价参数。
在示例性实施例中,所述任务处理模块430,用于:
若所述评价参数处于第一取值区间,则对所述ETL任务进行下线处理;
若所述评价参数处于第二取值区间,则对所述ETL任务进行优化处理;
若所述评价参数处于第三取值区间,则保持所述ETL任务;
其中,所述第一取值区间小于所述第二取值区间,且所述第二取值区间小于所述第三取值区间。
综上所述,本申请实施例提供的技术方案中,通过获取ETL任务的元数据信息,根据该元数据信息确定该ETL任务的评价参数,然后基于该评价参数对ETL任务进行处理;从而通过对ETL任务进行量化评估,实现了对ETL任务的价值的量化表征,进而实现了对ETL任务的自动化管理,相比于人工管理的方式,效率更高,且成本更低。
需要说明的是:上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图6,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可用于实施上述实施例中提供的ETL任务的处理方法。具体来讲:
计算机设备600包括中央处理单元(CPU)601、包括随机存取存储器(RAM)602和只读存储器(ROM)603的***存储器604,以及连接***存储器604和中央处理单元601的***总线605。计算机设备600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)606,和用于存储操作***613、应用程序614和其他程序模块612的大容量存储设备607。
基本输入/输出***606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中显示器608和输入设备609都通过连接到***总线605的输入输出控制器610连接到中央处理单元601。基本输入/输出***606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备607通过连接到***总线605的大容量存储控制器(未示出)连接到中央处理单元601。大容量存储设备607及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说,大容量存储设备607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器604和大容量存储设备607可以统称为存储器。
根据本申请的各种实施例,计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在***总线605上的网络接口单元66连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机***(未示出)。
所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述ETL任务的处理方法。
在示例性实施例中,还提供了一种非临时性计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序在被处理器执行时以实现上述ETL任务的处理方法。
在示例性实施例中,还提供了一种计算机程序产品,当该计算机程序产品被处理器执行时,其用于实现上述ETL任务的处理方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种ETL任务的处理方法,其特征在于,所述方法包括:
获取ETL任务的元数据信息;
根据所述元数据信息,确定所述ETL任务的评价参数;其中,所述评价参数用于表征所述ETL任务的价值;
根据所述评价参数对所述ETL任务进行处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述元数据信息,确定所述ETL任务的评价参数,包括:
根据所述元数据信息,确定所述ETL任务的n个子评价参数,所述n个子评价参数包括复杂度评价参数、成本度评价参数和依赖度评价参数,所述n为正整数;
根据所述n个子评价参数计算所述ETL任务的所述评价参数。
3.根据权利要求2所述的方法,其特征在于,所述n个子评价参数还包括新鲜度评价参数和/或查询度评价参数。
4.根据权利要求2所述的方法,其特征在于,所述根据所述元数据信息,确定所述ETL任务的n个子评价参数,包括:
根据所述元数据信息,确定所述ETL任务的复杂度等级;
根据所述ETL任务的复杂度等级确定所述ETL任务的复杂度评价参数;
其中,所述复杂度评价参数与所述复杂度等级呈正相关关系。
5.根据权利要求4所述的方法,其特征在于,所述根据所述元数据信息,确定所述ETL任务的复杂度等级,包括:
从所述元数据信息中提取复杂度信息,所述复杂度信息是指用于表征所述ETL任务的复杂度的信息;
查询第一映射关系表,将与所述复杂度信息对应的复杂度等级,确定为所述ETL任务的复杂度等级;
其中,所述第一映射关系表包括至少一组复杂度信息和复杂度等级之间的映射关系。
6.根据权利要求2所述的方法,其特征在于,所述根据所述元数据信息,确定所述ETL任务的n个子评价参数,包括:
根据所述元数据信息,确定所述ETL任务的成本信息,所述成本信息包括以下至少一个维度的信息:计算成本、存储成本和时间成本;
根据所述ETL任务的成本信息确定所述ETL任务的成本度评价参数。
7.根据权利要求6所述的方法,其特征在于,所述根据所述ETL任务的成本信息确定所述ETL任务的成本度评价参数,包括:
根据所述ETL任务的各个维度的成本信息以及对应的权重,计算所述ETL任务的成本度评价参数。
8.根据权利要求2所述的方法,其特征在于,所述根据所述元数据信息,确定所述ETL任务的n个子评价参数,包括:
根据所述元数据信息,确定所述ETL任务的下游依赖任务的数量;
根据所述ETL任务的下游依赖任务的数量,确定所述ETL任务的依赖度评价参数;
其中,所述依赖度评价参数与所述下游依赖任务的数量呈正相关关系。
9.根据权利要求8所述的方法,其特征在于,所述根据所述ETL任务的下游依赖任务的数量,确定所述ETL任务的依赖度评价参数,包括:
查询第二映射关系表,将与所述ETL任务的下游依赖任务的数量对应的依赖度评价参数,确定为所述ETL任务的依赖度评价参数;
其中,所述第二映射关系表包括至少一组下游依赖任务的数量和依赖度评价参数之间的映射关系。
10.根据权利要求2所述的方法,其特征在于,所述根据所述n个子评价参数计算所述ETL任务的所述评价参数,包括:
将所述n个子评价参数相加,得到所述ETL任务的所述评价参数;
或者,
将所述n个子评价参数进行加权求和,得到所述ETL任务的所述评价参数。
11.根据权利要求1至10任一项所述的方法,其特征在于,所述根据所述评价参数对所述ETL任务进行处理,包括:
若所述评价参数处于第一取值区间,则对所述ETL任务进行下线处理;
若所述评价参数处于第二取值区间,则对所述ETL任务进行优化处理;
若所述评价参数处于第三取值区间,则保持所述ETL任务;
其中,所述第一取值区间小于所述第二取值区间,且所述第二取值区间小于所述第三取值区间。
12.一种ETL任务的处理装置,其特征在于,所述装置包括:
信息获取模块,用于获取ETL任务的元数据信息;
参数确定模块,用于根据所述元数据信息,确定所述ETL任务的评价参数;其中,所述评价参数用于表征所述ETL任务的价值;
任务处理模块,用于根据所述评价参数对所述ETL任务进行处理。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至11任一项所述的方法。
14.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述的方法。
CN201910872609.0A 2019-09-16 2019-09-16 Etl任务的处理方法、装置、设备及存储介质 Active CN110580265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910872609.0A CN110580265B (zh) 2019-09-16 2019-09-16 Etl任务的处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910872609.0A CN110580265B (zh) 2019-09-16 2019-09-16 Etl任务的处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110580265A true CN110580265A (zh) 2019-12-17
CN110580265B CN110580265B (zh) 2020-11-20

Family

ID=68812096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910872609.0A Active CN110580265B (zh) 2019-09-16 2019-09-16 Etl任务的处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110580265B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680085A (zh) * 2020-05-07 2020-09-18 北京三快在线科技有限公司 数据处理任务分析方法、装置、电子设备和可读存储介质
CN112650661A (zh) * 2020-12-29 2021-04-13 北京嘀嘀无限科技发展有限公司 数据处理质量控制方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117306A (zh) * 2010-01-04 2011-07-06 阿里巴巴集团控股有限公司 Etl数据处理过程的监控方法及其***
US8200614B2 (en) * 2008-04-30 2012-06-12 SAP France S.A. Apparatus and method to transform an extract transform and load (ETL) task into a delta load task
US8719769B2 (en) * 2009-08-18 2014-05-06 Hewlett-Packard Development Company, L.P. Quality-driven ETL design optimization
CN109902117A (zh) * 2019-02-19 2019-06-18 新华三大数据技术有限公司 业务***分析方法和装置
CN109947746A (zh) * 2017-10-26 2019-06-28 亿阳信通股份有限公司 一种基于etl流程的数据质量管控方法和***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200614B2 (en) * 2008-04-30 2012-06-12 SAP France S.A. Apparatus and method to transform an extract transform and load (ETL) task into a delta load task
US8719769B2 (en) * 2009-08-18 2014-05-06 Hewlett-Packard Development Company, L.P. Quality-driven ETL design optimization
CN102117306A (zh) * 2010-01-04 2011-07-06 阿里巴巴集团控股有限公司 Etl数据处理过程的监控方法及其***
CN109947746A (zh) * 2017-10-26 2019-06-28 亿阳信通股份有限公司 一种基于etl流程的数据质量管控方法和***
CN109902117A (zh) * 2019-02-19 2019-06-18 新华三大数据技术有限公司 业务***分析方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALKIS SIMITSIS.ETL: "QoX-Driven ETL Design: Reducing the Cost of ETL Consulting Engagements", 《PROCEEDINGS OF THE 2009 ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680085A (zh) * 2020-05-07 2020-09-18 北京三快在线科技有限公司 数据处理任务分析方法、装置、电子设备和可读存储介质
CN112650661A (zh) * 2020-12-29 2021-04-13 北京嘀嘀无限科技发展有限公司 数据处理质量控制方法、装置、计算机设备和存储介质
CN112650661B (zh) * 2020-12-29 2024-07-09 北京嘀嘀无限科技发展有限公司 数据处理质量控制方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110580265B (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN108833458B (zh) 一种应用推荐方法、装置、介质及设备
CN108345601B (zh) 搜索结果排序方法及装置
CN110764898B (zh) 一种任务分配方法、装置、可读存储介质及终端设备
CN113254472B (zh) 一种参数配置方法、装置、设备及可读存储介质
CN111177568B (zh) 基于多源数据的对象推送方法、电子装置及存储介质
CN110580265B (zh) Etl任务的处理方法、装置、设备及存储介质
CN105989066A (zh) 一种信息处理方法和装置
CN113946566B (zh) Web***指纹库的构建方法、装置和电子设备
CN116610821B (zh) 一种基于知识图谱的企业风险分析方法、***和存储介质
CN112733034A (zh) 内容推荐方法、装置、设备及存储介质
CN115879826B (zh) 一种基于大数据的精细化工工艺质检方法、***及介质
CN111611228A (zh) 一种基于分布式数据库的负载均衡调整方法及装置
CN111783883A (zh) 一种异常数据的检测方法及装置
CN116737373A (zh) 负载均衡方法、装置、计算机设备、存储介质
CN115168509A (zh) 风控数据的处理方法及装置、存储介质、计算机设备
CN113256422B (zh) 分仓账户识别方法、装置、计算机设备和存储介质
CN110232590B (zh) 一种方案的生成方法及设备
CN115203556A (zh) 一种评分预测模型训练方法、装置、电子设备及存储介质
CN115080552A (zh) 数据质量评价方法、装置、设备和计算机可读存储介质
CN110134575B (zh) 一种服务器集群的服务能力计算方法及装置
CN112463378A (zh) 一种服务器资产扫描方法、***、电子设备及存储介质
CN108471362B (zh) 资源分配预测方法和装置
CN113495831A (zh) 基于关键字生成测试用例的方法、***、设备及介质
CN113886723B (zh) 确定排序稳定性的方法和装置、以及存储介质和电子设备
CN114185548A (zh) 基于人工智能的代码评审方法、装置、存储介质及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant