CN112256418A

CN112256418A - 一种大数据任务调度方法

Info

Publication number: CN112256418A
Application number: CN202011157921.0A
Authority: CN
Inventors: 胡亚军; 邵若梅; 孙树清
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-01-22
Anticipated expiration: 2040-10-26
Also published as: CN112256418B

Abstract

本发明公开了一种大数据任务调度方法，包括以下步骤：S1、将多个大数据分析任务分为多个优先级，相同优先级的大数据分析任务划分至同一组，并确定每组任务组中各个大数据分析任务的复杂度；S2、在Hadoop计算集群中基于循环调度学习算法神经网络构建任务调度子程，由任务调度子程将Hadoop计算集群的计算资源按优先级和复杂度分配给各个大数据分析任务。本发明可使得大数据分析时计算集群能够达到最优的运行状态，解决了计算任务的资源过度抢占的问题，同时也通过及时回收Hadoop集群的计算资源，保证计算资源得到充分的利用。

Description

一种大数据任务调度方法

技术领域

本发明涉及大数据智能处理方法领域，具体是一种大数据任务调度方法。

背景技术

当世界在大步迈进5G时代，数据越来越成为企业的金矿，在这些数据金矿中提取到想要的金子，就需要利用到大数据分析技术，利用服务器集群的强大的算力来得到各种各样的数据报表，从而通过这些报表，能够直观地对相关业务有更加清晰地认识和理解。随着数据量的增加，从一开始的GB到TB，甚至到PB级别的数据，需要一个非常庞大的大数据集群来满足数据分析需求，同时分析需求也从几个到几十个再到几百个。

目前，在大数据分析领域，需要在法律允许的情况下收集用户的非敏感的行为数据，同时利用大数据技术对这些TB级别甚至PB级别的数据进行分析和学习，因此需要用到Hadoop生态的大数据分析技术。由于业务方面要求每天都要进行各个维度的大数据分析，大部分分析任务都会有一个分析的时间维度，比如月、周、日、时、分等，时间维度越大其对应需要一次性分析的数据就越庞大，要在一定的时间内得到分析结果的话，就需要更多的计算资源。

现有技术是启动一个Hadoop计算集群，利用Presto技术，在每天的特定时间点后，相应的触发各个计算任务，但是这种做法存在各种弊端，一方面，各个计算任务的资源出现互相抢占的问题，最终会导致某些分析任务由于计算资源不足而没有成功得到分析结果；另一方面，由于启用一个固定大小的集群，而分析任务一般都是凌晨后开始运行，且均需要在早上的时候得到分析的结果，就导致这个集群是在一段时间内几乎满负荷在运作，但也会有超过一半的时间是空闲的，出现了资源浪费的情况。同时几十上百个任务都在需要相应资源运行，若不加以区分，会导致一些相对重要的任务无法在预计时间内计算出分析结果，而相对不太重要或者说不太紧迫的分析任务却获得了较多的资源得以很快地输出分析结果，这种情况会对大数据分析造成较大的困扰和不便。

发明内容

本发明的目的是提供一种大数据任务调度方法，以解决现有技术进行大数据任务分析时存在的计算资源利用状况不佳的问题，实现利用最少的机器来完成最多的大数据分析业务。

为了达到上述目的，本发明所采用的技术方案为：

一种大数据任务调度方法，包括以下步骤：

S1、将多个大数据分析任务按它们的重要程度分为多个优先级，每个大数据分析任务均有各自的优先级，将相同优先级的大数据分析任务划分至同一组，得到多组任务组，然后确定每组任务组中各个大数据分析任务的复杂度；

S2、在Hadoop计算集群中基于循环调度学习算法神经网络构建任务调度子程，由任务调度子程将Hadoop计算集群的计算资源分配给各个大数据分析任务进行任务解析，任务调度子程分配过程如下：

按优先级将计算资源分配给多组任务组，计算资源的分配按优先级从高到低的顺序而减少；

每组任务组中，根据各个大数据分析任务的复杂度，使复杂度大于预设阈值的若干个大数据分析任务分别独占对应分配的计算资源进行解析，待复杂度大于预设阈值的若干个大数据分析任务解析完成后，其余大数据分析任务再使用对应分配的计算资源进行解析。

可选地，在一些具体实施例中：

所述的一种大数据任务调度方法，步骤S1中，各个大数据分析任务的优先级，根据其在业务方面的重要性进行划分，重要性越高的优先级越高。

所述的一种大数据任务调度方法，其特征在于：步骤S1中，各个大数据分析任务的优先级，根据其分析结论对业务指导的重要性进行划分，重要性越高的优先级越高。

所述的一种大数据任务调度方法，步骤S1中，各个大数据分析任务的复杂度，根据相同时间段内完成各个大数据分析任务解析理论上需要占用的计算资源量进行确定，占用计算资源量越大的复杂度越高。

所述的一种大数据任务调度方法，步骤S1中，各个大数据分析任务的复杂度，根据完成大数据分析任务解析所需的代码的事件复杂度、空间复杂度、需要调用的数据总量进行确定。

所述的一种大数据任务调度方法，步骤S2每组任务组中，复杂度大于预设阈值的若干个大数据分析任务按串行顺序依次独占对应分配的计算资源进行解析，待复杂度大于预设阈值的若干个大数据分析任务解析完成后，其余大数据分析任务再按串行或并行顺序使用对应分配的计算资源进行解析。

所述的一种大数据任务调度方法，步骤S2每组任务组中所有大数据任务均完成解析后，其对应分配的计算资源进行释放并用于其他大数据分析任务解析。

所述的一种大数据任务调度方法，步骤S2中，Hadoop计算集群中利用计算资源完成每个大数据分析任务的解析后，将任务执行情况反馈至任务调度子程，任务调度子程根据任务执行情况进行自我学习，从而得到新的任务调度子程用于后续计算资源分配。

在手机领域，需要通过有效的途径获取对用户的正确认识，为此会在法律允许的情况下收集用户的非敏感的行为数据，同时也利用大数据技术对这些TB级别甚至PB级别的数据进行分析和学习，因此需要用上Hadoop生态的大数据分析技术。由于几乎每天都要进行各个维度的大数据分析，大部分分析任务都会有一个分析的时间维度，比如月、周、日、时、分等，时间维度越大，要一次性分析的数据就越庞大，如果需要在一定的时间内得到分析结果的话，就需要更多的计算资源。

以往是启动一个Hadoop计算集群，利用Presto技术，在每天的特定时间点后，相应的触发各个计算任务，但是这种做法存在各种弊端，一方面，各个计算任务的资源出现互相抢占的问题，最终会导致某些分析任务由于计算资源不足而没有成功得到分析结果；另一方面，由于是启用一个固定大小的集群，而分析任务一般都是凌晨后开始运行，且均需要在早上8点的时候得到分析的结果，就导致这个集群是在一段时间内几乎满负荷在运作，但也会有超过一半的时间是空闲的，出现了资源浪费的情况。同时几十上百个任务都在需要相应资源运行，以往都是不加以区分，导致一些相对重要的任务无法在预计时间内计算出分析结果，而相对不太重要或者说不太紧迫的分析任务却获得了较多的资源得以很快的输出分析结果，这种情况对于查看和分析我们的日常运营情况产生较大的困扰和不方便。

本发明中，对所有的大数据分析任务进行优先级确定，同时利用任务调度子程，对数量众多的大数据分析任务进行科学有效的调度，保证了高优先级任务能最优先获取到计算资源进行运算，保证资源不被低优先级的任务所抢占，同时也通过任务调度子程的智能自我学习，对集群和各个大数据分析任务的运行过程的情况进行分析，根据任务的优先级和资源需求情况机动地调整任务进出串行或并行队列，保证了分析任务的有效运行和大数据集群资源的最高效利用，从而使得大数据分析时计算集群能够达到最优的运行状态。

本发明中，将大数据分析任务分解，任务分批独立在一个Hadoop计算集群中运行，同时通过给每一个大数据分析任务进行优先级定义，在Hadoop计算集群中依据这个任务优先级，对于优先级高的分组，会分配更多的计算资源，同时支持任务串行和并行的特点，对于一些重要且复杂度较高需要较多资源的大数据分析任务，会独占计算资源(即串行模式)，待该任务运行结束后，其他大数据分析任务再串行或并行运行使用计算资源。待该分组的所有大数据分析任务运行完成后回收分配的计算资源以便用于其他的计算服务，这样就解决了计算任务的资源过度抢占的问题，同时也通过及时回收Hadoop集群的计算资源，保证计算资源得到充分的利用。

附图说明

图1是本发明实施例方法流程框图。

图2为本发明实施例中任务调度服务的核心算法示意图。

图3为本发明实施例中新旧的任务调度服务的成功率对比图。

图4为本发明实施例中新旧的任务调度服务的费用支出对比图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示，一种大数据任务调度方法，包括以下步骤：

S1、将多个大数据分析任务按它们的重要程度分为多个优先级，每个大数据分析任务均有各自的优先级，将相同优先级的大数据分析任务划分至同一组，得到多组任务组。

步骤S1中，各个大数据分析任务的优先级，可根据其在业务方面的重要性进行划分，重要性越高的优先级越高。

步骤S1中，各个大数据分析任务的优先级，还可根据其分析结论对业务指导的重要性进行划分，重要性越高的优先级越高。

其中，各步骤解释如下：

S2、确定每组任务组中各个大数据分析任务的复杂度。

步骤S2中，各个大数据分析任务的复杂度，可根据相同时间段内完成各个大数据分析任务解析理论上需要占用的计算资源量进行确定，例如根据需要占用的计算机的内存、CPU、存储和计算机的台数等进行确定，占用计算资源量越大的复杂度越高。

步骤S2中，各个大数据分析任务的复杂度，还根据完成大数据分析任务解析所需的代码的事件复杂度、空间复杂度、需要调用的数据总量进行确定。

S3、在Hadoop计算集群中基于循环调度学习算法神经网络构建任务调度子程，由任务调度子程将Hadoop计算集群的计算资源分配给各个大数据分析任务进行任务解析。

如图2所示，本发明中，任务调度子程是基于循环调度学习算法(CSL，Cyclicscheduling learning)的神经网络构建而成，任务调度子程根据预定义好的任务优先级，对大数据分析任务进行智能的分组调整和资源调配，再对本次任务执行情况进行学习，重新对任务调度子程进行有效的尝试和调整，在下一次任务运行时重新利用最新的任务调度子程序对大数据分析任务再次进行分组调整和资源调配，通过循环式的学习和调整，最终达到最大化的使用资源的同时也保证了大数据分析任务能够按照预期地分析出所需要的结果，一方面提高了大数据的分析效率(如图3所示,减低了大数据分析的时间，带来了效率的提升)，另一方面也节省了计算费用支出(,如图4所示)。

本发明中，在Hadoop计算集群内部还构建有数据仓库、任务仓库。其中数据仓库收集了当前业务***的各种数据，包括有结构化数据(如Mysql数据库等)、非结构化数据(如图片、视频、日志文件等)，也称之为数据湖。任务仓库记录当前所有进行数据分析的任务的详细信息，可以用普通的关系型数据库(如Mysql、SQL Server)进行存储，管理员可以随时对这个任务仓库进行增删改查等操作。

本发明中，Hadoop计算集群支持多种离线技术框架，比如支持Hive、Presto、Impala等。

任务调度子程是进行调度的核心，主要是根据任务的各项特性和指标，利用自身的AI能力，进行大数据分析任务的智能分组和资源分配，保证任务的正确运行以及资源的合理利用。

本发明任务调度子程分配过程如下：

本发明中，每组任务组中，复杂度大于预设阈值的若干个大数据分析任务按串行顺序依次独占对应分配的计算资源进行解析，待复杂度大于预设阈值的若干个大数据分析任务解析完成后，其余大数据分析任务再按串行或并行顺序使用对应分配的计算资源进行解析。

本发明中，每组任务组中所有大数据任务均完成解析后，其对应分配的计算资源进行释放并用于其他大数据分析任务解析。而释放计算资源主要实现的途径是通过计算框架和数据分离的技术来实现的。Hadoop计算集群相应的Hive表采用了外部表的方式，将数据放到Hadoop计算集群之外，由此在释放Hadoop计算集群的计算资源时候，数据不会受到影响。

本发明中，Hadoop计算集群中利用计算资源完成每个大数据分析任务的解析后，将任务执行情况反馈至任务调度子程，任务调度子程根据任务执行情况进行自我学习，从而得到新的任务调度子程用于后续计算资源分配。

一个优秀的任务调度***，即要考虑到调度的可靠性和有效性，还要考虑资源调度给资源优化和费用节省带来的改善空间，为了搭建一个优秀的，也能够无缝的支持大数据分析业务的正常开展，本发明AI智能资源调度的大数据分析任务管理***主要通过如下讲述的内容实现进行有效的调度。创建大数据分析任务，设置任务的初始属性，大数据任务的初始属性设定如表1所示。

表1大数据任务初始属性设定表

任务调度子程预测分配的初始资源，大数据分析任务的解析结果进入任务调度子程的神经网络。考虑到有一些大数据分析任务运行成功状态受到编码影响，因此需要对运行失败的任务的日志进行分析，过滤掉由于大数据分析任务的编码本身的错误导致任务无法正常运行的情况。任务调度子程的神经网络进行持续的自我学习和调整，提高资源分配和任务调度的有效性。任务调度子程的神经网络不是一成不变的，而是一个动态的自我学习的过程，通过持续的数据输入，进行神经网络的层级以及参数的自我调整，使得任务调度子程的适应度得到持续地提升，大数据分析任务的正确运行率达到99.9％(不包含由于任务代码本身的错误导致无法正确运行的情况)；计算费用减低50％。通过计算的资源及时回收，在支撑同等的大数据分析任务的情况下，使得计算开销比以往减低50％。

通过提出循环调度学习算法CSL，大大提高了任务执行的效率，在支撑相同规模的分析任务的时候，集群的规模也减半，从而极大的节省了计算成本开销，另外加入了任务权重这一个重要的维度，保证了核心分析任务优先获得资源进行调度，保证重要的分析业务得以快速的输出。当然，目前这个***还存在一些不足的地方，比如分析任务如果是因为代码错误导致无法正常运行的时候，如果***无法准确通过错误日志去区分出来改任务的运行异常是由于编码错误导致的话，就会对CSL算法的模型调整产生干扰，影响任务调度***的精确性，目前还需要人工进一步去确定任务运行异常的原因，过滤掉不是因集群计算资源导致的运行失败结果。由于大数据分析任务所耗费的分析时间除了集群资源分配情况影响之外，还受到数据量变化、分析程序代码优劣等情况影响，因此需要考虑更多的影响因素，这些都是接下来要优化和解决的问题。

本发明所述的实施例仅仅是对本发明地优选实施方式进行的描述，并非对本发明构思和范围进行限定，在不脱离本发明设计思想的前提下，本领域中工程技术人员对本发明的技术方案作出的各种变型和改进，均应落入本发明的保护范围，本发明请求保护的技术内容，已经全部记载在权利要求书中。

Claims

1.一种大数据任务调度方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种大数据任务调度方法，其特征在于：步骤S1中，各个大数据分析任务的优先级，根据其在业务方面的重要性进行划分，重要性越高的优先级越高。

3.根据权利要求1所述的一种大数据任务调度方法，其特征在于：步骤S1中，各个大数据分析任务的优先级，根据其分析结论对业务指导的重要性进行划分，重要性越高的优先级越高。

4.根据权利要求1所述的一种大数据任务调度方法，其特征在于：步骤S1中，各个大数据分析任务的复杂度，根据相同时间段内完成各个大数据分析任务解析理论上需要占用的计算资源量进行确定，占用计算资源量越大的复杂度越高。

5.根据权利要求1所述的一种大数据任务调度方法，其特征在于：步骤S1中，各个大数据分析任务的复杂度，根据完成大数据分析任务解析所需的代码的事件复杂度、空间复杂度、需要调用的数据总量进行确定。

6.根据权利要求1所述的一种大数据任务调度方法，其特征在于：步骤S2每组任务组中，复杂度大于预设阈值的若干个大数据分析任务按串行顺序依次独占对应分配的计算资源进行解析，待复杂度大于预设阈值的若干个大数据分析任务解析完成后，其余大数据分析任务再按串行或并行顺序使用对应分配的计算资源进行解析。

7.根据权利要求1所述的一种大数据任务调度方法，其特征在于：步骤S2每组任务组中所有大数据任务均完成解析后，其对应分配的计算资源进行释放并用于其他大数据分析任务解析。

8.根据权利要求1所述的一种大数据任务调度方法，其特征在于：步骤S2中，Hadoop计算集群中利用计算资源完成每个大数据分析任务的解析后，将任务执行情况反馈至任务调度子程，任务调度子程根据任务执行情况进行自我学习，从而得到新的任务调度子程用于后续计算资源分配。