CN108509280A

CN108509280A - 一种基于推送模型的分布式计算集群本地性调度方法

Info

Publication number: CN108509280A
Application number: CN201810367756.8A
Authority: CN
Inventors: 顾荣; 黄宜华; 黄凯旋
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-04-23
Filing date: 2018-04-23
Publication date: 2018-09-07
Anticipated expiration: 2038-04-23
Also published as: CN108509280B

Abstract

本发明公开了一种基于推送模型的分布式计算集群本地性调度方法，包括以下步骤：第一步，各应用管理器为每个计算任务生成一个资源请求，发送给集群调度器；第二步，集群调度器对收到的资源请求进行分类；第三步，对分类好的资源请求进行剪枝处理；第四步，节点管理器通过心跳来触发调度；第五步，对于等待时间超过了最大延迟时间的资源请求，缓存到待推送的资源请求队列中；第六步，将待推送的资源请求主动推送到其数据所在的节点进行调度；第七步，降低推送失败的资源请求所要求的数据本地性。本发明可解决现有集群调度器在内存计算场景下本地性差的问题，提高数据本地性，同时解决长尾效应问题。

Description

一种基于推送模型的分布式计算集群本地性调度方法

技术领域

本发明涉及资源调度与并行计算技术领域，尤其涉及一种基于推送(Push)模型的分布式计算集群本地性调度方法。

背景技术

在当今大数据时代，数据密集型计算被应用在越来越多的场景下，而且随着以Apache Hadoop为代表的数据并行计算框架的出现和蓬勃发展，使得计算能力有了极大的提高，并且，Hadoop YARN成为了Hadoop生态***中的资源管理器。与此同时，随着内存硬件价格的不断降低，基于磁盘存储的分布式文件***HDFS逐渐不能满足分布式***对数据获取速度的要求，因此，基于内存的分布式文件***Alluxio开始兴起。数据本地性是影响分布式计算框架性能的一大重要指标，数据本地性就是将计算放置在数据所存放的节点上，可以有效的减少跨节点，甚至跨机架的数据传输所带来的网络开销，尤其是在基于内存的分布式文件***中，数据本地性意味着以内存的速度来获取数据。但是，我们在实践中发现，在内存计算场景下，资源管理器YARN的数据本地性性能非常差。前人提出了一种延迟调度的方法来获取数据本地性：每次一个节点向调度器发送心跳触发一次调度时，如果调度器不能在该节点上分配一个满足数据本地性的任务，就放弃本次调度机会，让其他节点进行调度。这样的调度机制在HDFS这样的多副本文件***中可以获得较好的性能，但是在Alluxio这样的单副本场景下，由于每次调度满足数据本地性的概率远低于多副本场景，从而导致需要跳过大量的调度机会才能获得数据本地性。我们通过实验发现，大量跳过的调度次数会带来长尾效应的问题，从而导致这些跳过大量调度次数的任务会成为应用的“拖累者”，影响应用的完成时间，与此同时，大量的延迟调度过程中，会带来很多不必要的计算，从而影响***的吞吐量。但是，目前还没有方法旨在解决内存场景下的本地性调度问题。因此，如何设计一个调度机制，使得调度器在内存计算这样的单副本场景下依旧获得很好的数据本地性，成为了一个非常有挑战性的工作。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明的目的是提供一种基于推送模型的分布式计算集群本地性调度方法，解决了现有方法在内存计算场景下本地性性能不高的问题，同时，解决延迟调度所带来的长尾效应问题。

技术方案：为实现上述发明目的，本发明采用的技术方案为一种基于推送模型的分布式计算集群本地性调度方法，包括以下步骤：

(1)每一个应用管理器(Application Master,AM)根据输入的数据块的数目，划分成多个任务，同时，各个应用管理器为每一个任务生成资源请求，发送给集群调度器，并缓存在第一资源请求队列中；

(2)集群调度器根据资源请求的优先级，将所述第一资源请求队列划分为四种不同任务的资源请求：1、Map任务；2、AM任务；3、Reduce任务；4、失败过的Map任务；

(3)集群调度器对所述步骤(2)中划分的不同任务的资源请求，作相应的剪枝处理，生成第二资源请求队列，具体如下：1、对于Map任务，只响应数据落在本地的资源请求；2、对于AM任务，由于AM任务中不存在数据，所以不做任何本地性检查；3、对于Reduce任务，由于所需要的数据在不同的节点上，所以不做任何本地性检查；4、对于失败过的Map任务，降低资源请求所要求的本地性等级；

(4)每次当节点管理器(Node Manager,NM)向集群调度器发送心跳时，集群调度器从第二资源请求队列中选取一个资源请求，进行资源分配；

(5)从所述第二资源请求队列中，筛选出等待时间超过设定的最大延迟时间的资源请求，缓存在第三资源请求队列中；

(6)集群调度器从所述第三资源请求队列中选取一个等待时间最长的资源请求，查找该资源请求的数据所在节点，主动触发该节点的调度；

(7)如果主动触发调度后仍然失败，则降低要求的本地性等级。

进一步地，所述步骤(1)中，资源管理器为每个提交的应用生成一个应用管理器，应用管理器将应用划分成一个个子任务，同时为每个子任务生成一个资源请求，并行的发送给资源管理器中的集群调度器。

进一步地，所述步骤(2)中，根据资源请求的不同优先级，判断资源请求的任务种类，将所有的资源请求划分为四种不同任务的资源请求。

进一步地，所述步骤(3)中，根据不同的任务的特点，设计相应的处理逻辑，对无法获得数据本地性的资源请求进行剪枝，同时减少不必要的本地性检查。

进一步地，所述步骤(4)中，每个节点管理器向集群调度器发送心跳时，会触发集群调度器进行一次调度，每一次调度会从第二资源请求队列中选择一个当前资源使用量/资源配额最低的资源请求进行调度。

进一步地，所述步骤(5)中，在最大延迟时间内，集群调度器等待节点发送心跳来触发调度而不主动触发调度，当一个资源请求的等待时间超过最大延迟时间后，将其缓存到第三资源请求队列中。

进一步地，所述步骤(6)中，在第三资源请求队列中，采用贪心算法，从队列中的所有资源请求中，选取一个等待时间最长的资源请求，主动推送到资源请求所需要的数据所在的节点，触发该节点的调度。

进一步地，所述步骤(7)中，对于主动触发调度后仍然调度失败的资源请求，降低其本地性要求。

有益效果：本发明能够在内存计算场景下，通过一种基于推送(Push)模型的分布式计算集群本地性调度方法，有效的解决数据本地性问题：第一，本发明针对现有调度机制在内存计算场景下本地性差的问题，通过过一种基于推送(Push)模型的分布式计算集群本地性调度方法，有效提高任务的数据本地性；第二，不同于以往方法需要通过大量的延迟来等待数据所在节点发送心跳来触发调度，本发明设计的调度方法在等待一小段时间后，主动寻找数据所在的节点，将资源请求推送到数据所在节点，从而解决了大量延迟带来的长尾效应问题；第三，本发明虽然实现在YARN(Yet Another Resource Manager)框架上，但总体设计思路并不依赖特定的数据并行计算框架，方便在任何上述***上实现，具有良好的可移植性。

附图说明

图1为本发明的方法总体流程示意图；

图2为本发明中资源请求剪枝阶段的示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提出了一种基于Push模型的本地性调度方法，解决了内存计算场景下本地性差和长尾效应的问题，并且设计了一种针对不同任务的剪枝处理方法，从而降低了处理过程中的复杂度。

如图1所示，本发明的完整流程包括资源请求生成阶段、任务分类阶段、剪枝阶段、心跳处理阶段、筛选阶段、主动推送阶段、推送失败后的处理阶段7个部分。具体的实施方式分别说明如下：

资源请求生成阶段对应技术方案步骤(1)。具体实施方式为：首先将应用提交给资源管理器(Resource Manager，RM)，然后资源管理器会为每一个应用创建一个应用管理器。应用管理器将应用根据输入数据的规模划分成一个个任务，其中，任务划分的依据是：每一个数据块会生成一个任务，该数据块作为任务的输入数据。任务划分完成后，AM为每一个任务生成一个资源请求，其中，资源请求以一个五元组的形式表示：<p,k,r,c,f>，其中p代表资源请求的优先级；k代表期望被调度的节点或机架；r代表所需要的资源量(包括cpu资源和内存资源)；c代表需要的容器数目；f代表是否允许降低本地性。生成的资源请求会并发的发送给集群调度器。

任务分类阶段对应技术方案步骤(2)。具体实施方式为：由于不同种类的任务拥有不同的优先级，数值越低代表优先级越高，其中，AM任务的优先级为0，因为AM任务需要负责整个应用的管理，需要最先被分配。Map任务的优先级为20，Reduce任务的优先级为10，失败过的Map任务的优先级为15。集群调度器将收到的资源请求根据优先级划分为四种不同任务的资源请求。

剪枝阶段对应技术方案步骤(3)。具体实施方式为：对于不同任务的资源请求，集群调度器作相应的剪枝处理，如图2所示，具体如下：1、对于Map任务，只响应数据落在本地的资源请求：每次收到一个节点发送的心跳，集群调度器根据资源请求五元组的第二个元素k资源请求所期望的位置(即数据所在的位置)，筛选出期望被调度到心跳节点的资源请求，其他MAP任务的资源请求不作任何响应；2、对于AM任务，由于AM任务中不存在数据，所以不做任何的本地性检查，直接完成调度；3、对于Reduce任务，由于所需要的数据在不同的节点上，所以不做任何的本地性检查，直接完成调度；4、对于失败过的Map任务，由于已经失败过一次，可能是数据所在的节点没有空闲资源或者宕机，因此降低资源请求所要求的本地性等级；

心跳处理阶段对应技术方案步骤(4)。具体实施方式为：每次节点管理器向集群调度器发送心跳时，会触发一个节点更新(NODE_UPDATE)事件，节点更新事件会触发一次集群调度器的调度，每一次调度会从第二资源请求队列中选择一个资源请求进行调度，其中，资源请求的选择依据是：选取当前资源使用量/资源配额最低的资源请求。

筛选阶段对应技术方案步骤(5)。具体实施方式为：在第二资源请求队列中，将当前等待时间超过设定的最大延迟时间的资源请求，缓存在第三资源请求队列中。

主动推送阶段对应技术方案步骤(6)。具体实施方式为：在第三资源请求队列中，采用贪心算法，从队列中的所有资源请求中，选取一个等待时间最长的资源请求，找到资源请求所需要的数据所在的节点，通知该数据所在节点向集群调度器发送一个节点更新事件，从而触发集群调度器在该节点上的调度。

推送失败后的处理阶段对应技术方案步骤(7)。具体实施方式为：主动触发调度后的资源请求，由于节点上没有空闲资源或者节点宕机等原因，使得调度失败。因此，将主动触发后仍然失败的资源请求，降低其本地性要求，具体来说，就是将资源请求中的k，从原来的某一个节点，改为节点所在的机架，这样，资源请求可以被调度到该机架上的任意一个节点，从而避免资源请求出现饥饿问题。

本发明基于在已有的开源软件YARN上实现了一个原型调度机制PSM(Push-basedScheduling Mechanism)。其中底层数据存储使用Alluxio，计算框架使用Apache Hadoop。在进行性能测试过程中，采用了学术界和工业界广泛采用的测试标准(benchmark)：Big-Bench。

通过使用Big-Bench，对现有的调度方法与本发明实现的调度方法进行性能测试，表1是在相同的硬件条件下对比本方法和目前YARN原生的调度方法以及现有性能最好的延迟调度方法所获得的性能测试结果。性能测试从三个方面测试调度方法的性能：数据本地性、完成时间、吞吐量，其中，数据本地性从三方面进行衡量：节点本地性代表着资源请求被调度到数据所在的节点，数据本地性最佳，机架本地性代表资源请求被调度到与数据所在节点同机架的另一个节点，数据本地性效果次之，跨机架本地性效果最差，代表资源请求被调度到另一个机架上的节点；完成时间是应用从提交到全部完成所花费的总时间，时间越短，效果越好；吞吐量表示单位时间内被成功调度的资源请求的数量，吞吐量越高，性能越好。从表1中可以看出，YARN原生调度方法在本地性性能上非常差，只有20％的节点本地性，由于数据本地性差，数据需要从其他节点传输到被调度到的节点，从而导致完成时间最长(786s)，但由于不需要做任何的本地性检查，所以在***吞吐量上可以获得较好的性能。延迟调度方法通过大量的延迟次数，可以获得较高的节点本地性(88％)，但由于大量延迟次数所带来的长尾效应问题，使得长尾任务称为整个应用的“拖累者”，增加了完成时间，同时，大量的调度机会被跳过使得***的吞吐量降低。本发明提出的基于推送(Push)模型的调度方法可以获得最好的节点本地性(96％)，同时完成时间最短，但为了获得数据本地性，仍需要少量的等待时间，所以在***吞吐量方面，相较于原生调度机制，有小幅的降低(5％)。相较于原生调度方法，虽然在吞吐量上有小幅的下降，但是节点的数据本地性以及完成时间上有大幅的提高；而相较于目前本地性效果最好的延迟调度方法，本发明可以在实现更好的数据本地性的同时，降低10％的完成时间，同时提高20％左右的吞吐量。

表1：不同调度方法下的性能测试

Claims

1.一种基于推送模型的分布式计算集群本地性调度方法，包括以下步骤：

(1)每一个应用管理器根据输入的数据块的数目，划分成多个任务，同时，各个应用管理器为每一个任务生成资源请求，发送给集群调度器，并缓存在第一资源请求队列中；

(4)每次当节点管理器向集群调度器发送心跳时，集群调度器从所述第二资源请求队列中选取一个资源请求，进行资源分配；

2.根据权利要求1所述一种基于推送模型的分布式计算集群本地性调度方法，其特征在于：所述步骤(1)中，各个应用管理器为每一个任务生成一个资源请求的过程为并行执行。

3.根据权利要求1所述一种基于推送模型的分布式计算集群本地性调度方法，其特征在于：所述步骤(4)中，节点管理器通过定时向集群调度器发送心跳来触发集群调度器的调度，同时，各个节点管理器并行的向集群调度器发送心跳。