CN105718479B

CN105718479B - 跨idc大数据处理架构下执行策略生成方法、装置

Info

Publication number: CN105718479B
Application number: CN201410730141.9A
Authority: CN
Inventors: 刘凯毅
Original assignee: China Telecom Corp Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2014-12-04
Filing date: 2014-12-04
Publication date: 2020-02-28
Anticipated expiration: 2034-12-04
Also published as: CN105718479A

Abstract

本发明公开了一种跨IDC的大数处理架构下执行策略生成方法、装置，涉及大数据处理领域。该方法接收各个IDC集群上报的当前可用计算资源和网络传输资源；基于任务分类模型库根据任务的类型确定任务的最优执行策略，任务的最优执行策略包括任务所需计算资源和所消耗时间；根据可用资源池中的[集群可用计算资源、作业数据分布]矩阵和[各个任务所需计算资源和所消耗时间、集群可用网络资源]矩阵两两计算，获得作业的当前最优执行策略。相对于现有的方案，本申请的技术方案能在跨IDC搭建下的大数据处理平台高利用率使用计算、网络资源，能满足不同业务的服务质量要求，而且具有灵活的业务扩展能力。

Description

跨IDC大数据处理架构下执行策略生成方法、装置

技术领域

本发明涉及大数据技术领域，特别涉及一种跨IDC(Internet Data Center，网络数据中心)大数处理架构下执行策略生成方法、装置。

背景技术

当前处理海量数据处理平台都是以单个IDC内方式构建，使用者不需要了解在IDC内分布式计算所涉及的底层技术细节，能方便快捷地开发数据处理程序。

在当前架构下，任务策略都以量化集群内设备的CPU、内存等计算相关资源来开发。

1.FIFO(First In First Out，先入先出)调度策略

队列调度策略，是从工作队列中以先进先出方式来处理任务。此策略是最老、最简单的处理方式，易于实现运行稳定。但是，该策略不考虑作业的优先级或大小，如果遇到大的计算任务会占用整个集群全部资源，后续任务需要等待当前大任务完成才能获得处理。一些优先级别高、计算量小的任务，不能得到及时处理。

2.容量调度策略

容量调度策略，是让任务选择预先分配的资源容器处理执行。

按照各容器预先划分计算资源到每个容器内，并分配容器给多个独立用户和目标应用程序。该调度策略对集群的计算资源利用率不高，且计算资源扩容、删减的维护成本较高；此外，容器内多任务运行采用FIFO调度器，无法避免相应容器内的大任务导致拥塞整个容器。

3.公平调度策略

公平调度策略，与容器调度策略有相似的地方。相对容器调度策略，公平调度策略强制公平共享各容器的计算资源。

具体来说，处理任务随着时间推移，在使用完自身容器所有计算资源情况下，根据强制公平共享计算资源的全局规则约定，当前任务从其他还有计算资源且优先策略低于当前任务的容器中借用相关资源。

在该规则下，临时的、需要较少时间、优先级别较高的作业会获得计算资源，那些需要更长时间执行的作业会推迟结果输出。但当在数据与计算资源分布不均匀时，采用任务延迟策略，导致调度稳定性不可预估。

现有大数据通用计算调度策略是在单IDC内，且数据、计算能力分布较均匀情况下有较好的批量执行处理能力。

首先，单个大IDC构建数据中心方面，随着大数据的演进。多样数据源源不断地来自网络每个角落，大家已经普遍认同：一个数据中心在建立和计算时效上都会对网络、可扩容等方面造成过高的运营成本。业内需要建立一个通用有层级数据处理能力的架构，在此架构下当前调度策略都是无法满足的。

其次，在数据与计算能力匹配调度为可执行任务上，现有的策略采取的是任务延迟策略。本策略中出现一个空闲计算资源，如果它被选中的作业没有设备内或本机架中的待处理数据时，策略暂把计算资源让给其他作业。基于此策略，对处理数据分布不理想，只采用延迟一段时间后随机处理的办法会让调度不稳定。

最后，随着大数据处理平台的普及，不同用户提交的应用作业往往具有不同的服务质量(QoS)需求。目前通用调度策略普遍是基于批量处理，已难于满足当前对大数据多样的QoS的要求。

发明内容

本发明的发明人发现上述现有技术中存在问题，并因此针对问题中的至少一个问题提出了一种新的技术方案。

本发明的一个目的是提供一种用于跨IDC的大数处理架构下执行策略生成的技术方案。

根据本发明的第一方面，提供了一种跨互联网数据中心IDC的大数处理架构下执行策略生成方法，包括：

调度组件接收各个IDC集群上报的当前可用的计算资源和传输资源；

所述调度组件接收提交的作业，所述作业包括任务、作业数据和期望输出；

所述调度组件根据任务类型基于任务分类模型库确定所述任务的代表执行策略，所述任务的代表执行策略包括所述任务所需计算资源和所消耗时间；

所述调度组件根据集群可用资源池中的[集群可用计算资源、作业数据分布]矩阵和[各个任务所需计算资源、和所消耗时间、集群可用网络传输资源]矩阵进行调度，获得所述作业的当前最优执行策略。

可选地，该方法还包括：通过机器学习建立所述任务分类模型库。

可选地，通过机器学习建立所述任务分类模型库包括：任务作为一个对象向IDC集群申请相关资源，相关资源包括CPU、硬盘、内存、传输资源和任务所需数据；对于每个类型的任务，通过试运行任务对相关资源进行随机分配，获得不同相关资源分配状态下的任务执行输出结果，获得任务试运行结果最优的最优执行策略；将任务的最优执行策略作为该任务类型的代表执行策略存入任务分类模型库。

可选地，计算资源包括CPU、硬盘、内存和传输资源。

可选地，该方法还包括：基于作业的服务质量要求为作业分配不同的作业权重，具有较高服务质量要求的作业分配较高的作业权重，让集群计算资源在作业权重的分配下达到使用利用率最大化，从而进行策略分配时优先分配具有较高QoS要求的作业。

可选地，调度组件根据可用资源池中的[集群可用计算资源、作业数据分布]矩阵和[各个任务所需计算资源、所消耗时间、集群可用网络传输资源]矩阵进行调度获得所述作业的当前最优执行策略包括：基于优化算法随机迭代，将[集群可用计算资源、作业数据分布]矩阵中的相关资源分配到[各个任务所需计算资源和所消耗时间、集群可用网络资源]矩阵的各任务的公式中，通过比对最优策略选取集群最优的分配策略。

根据本发明的另一方面，提供一种跨互联网数据中心IDC的大数处理架构下执行策略生成装置，包括：

可用资源获取模块，用于接收各个IDC集群上报的当前可用的计算资源和传输资源；

作业接收模块，用于接收提交的作业，所述作业包括任务、作业数据和期望输出；

任务策略确定模块，用于根据所述任务的类型基于任务分类模型库确定所述任务的代表执行策略，所述任务的代表执行策略包括所需计算资源和所消耗时间；

最优策略确定模块，用于根据可用资源池中的[集群可用计算资源、作业数据分布]矩阵和[作业的各个任务的所需计算资源和所消耗时间、集群可用网络资源]矩阵进行调度，获得所述作业的当前最优执行策略。

可选地，该装置还包括：任务分类模型库建立模块，用于通过机器学习建立所述任务分类模型库。

可选地，任务分类模型库建立模块将任务作为一个对象向集群申请相关资源，相关资源包括CPU、硬盘、传输资源、内存、任务所需数据；对于每个类型的任务，通过试运行任务对相关资源进行随机分配，获得不同相关资源分配状态下的任务执行输出结果，获得任务试运行结果最优的最优执行策略；将任务的最优执行策略作为该任务类型的代表执行策略存入任务分类模型库。

可选地，最优策略确定模块基于优化算法随机迭代，将[集群可用计算资源、作业数据分布]矩阵中的相关资源分配到[各个任务所需计算资源和所消耗时间、集群可用网络资源]矩阵的各任务的公式中，通过比对最优策略选取集群最优的分配策略。。

本发明的一个优点在于，根据任务分类模型库中不同类型任务的代表执行策略来确定作业中各个任务的所需计算资源和所消耗时间，并结合各个集群内的可用计算资源、作业数据分别以及各个集群的可用网络资源，确定作业的当前最优执行策略，从而实现了跨IDC的最优执行策略的调度和实现。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同说明书一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1是示出根据本发明的跨IDC的大数处理架构下执行策略生成方法的一个实施例的流程图；

图2是示出根据本发明的跨IDC的大数处理架构下执行策略生成方法的另一个实施例的示意图；

图3是示出根据本发明的跨IDC的大数处理架构下执行策略生成装置的一个实施例的结构图；

图4是示出根据本发明的跨IDC的大数处理架构下执行策略生成装置的另一个实施例的结构图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开的实体运行在跨多个IDC集群调度框架中，可以以对外提供策略服务的组件存在。根据周期性统一收集的量化传输网络、节点负载、设备存储、计算资源槽位来生成最优执行策略。

生成最优策略的核心处理包括：(1)优化跨IDC调度；(2) 满足不同的计算服务质量要求，为分布式调度框架提供一个良好的配置可管理的策略。

图1是示出根据本发明的跨IDC的大数处理架构下执行策略生成方法的一个实施例的流程图。

如图1所示，步骤102，调度组件接收各个IDC集群上报的当前可用计算资源和网络传输资源。计算资源包括CPU、GPU等计算能力，存储空间、内存等存储能力，网络传输资源包括集群的网络传输速率、网卡传输能力等。

步骤104，调度组件接收提交的作业，该作业包括任务、作业数据和期望输出。每个作业可以包括多个任务，不同的任务可以有不同的任务类型。

步骤106，调度组件根据任务类型基于任务分类模型库确定任务的代表执行策略，任务的代表执行策略包括任务所需计算资源和所消耗时间。

步骤108，调度组件根据可用资源池中的[各个集群可用计算资源、作业数据分布]矩阵和[各个任务所需计算资源、和所消耗时间、集群的可用网络传输资源]矩阵进行调度，获得作业的当前最优执行策略。根据作业数据分布和各个任务的代表执行策略所需的计算资源进行资源分配，使得尽可能多的任务得以按照代表执行策略执行；对于不能在数据所在的IDC集群按照最优执行策略执行的任务，通过集群的网络传输资源将其发送到其它的IDC集群，从而得以按照最优执行策略执行。

上述实施例中，根据任务分类模型库中不同任务类型的代表执行策略来确定作业中各个任务的所需计算资源和所消耗时间，并结合各个集群内的可用计算资源、作业数据分布以及各个集群的可用网络传输资源，确定作业的当前最优执行策略，从而实现了跨IDC的最优执行策略的调度和实现。

图2是示出根据本发明的跨IDC的大数处理架构下执行策略生成方法的另一个实施例的示意图。

如图2所示，步骤201，各个IDC集群周期上报当前集群的内运行作业执行状况。各个IDC计算集群的作业执行所需资源可以由集群监控***周期性收集并量化处理后上报给中央调度***。作业运行收集字段包括任务(task)类型、cpu、disk、net、mem、data、 time(执行时间)等。数值量化计算资源单元包括：

a)cpu(CPU核数，单位个)

b)disk(IO读写，单位MB/s)

c)net(网络传输，单位Mbps)

d)mem(内存，单位GB)

e)data(任务所需数据，单位GB)

步骤202，通过机器学习来建立任务分类模型库。任务模型库中包括各种任务类型的最优执行策略，即该任务类型的代表执行策略。各个任务类型的代表执行策略包括执行单位任务所分配的计算资源以及所消耗的时间。

每个任务执行会涉及到如下的任务执行公式：

(x*_cpu+y*_disk+z*_net+u*_mem)*_data<＝>time (1)

其中，_cpu表示CPU核数，_disk表示硬盘的IO读写能力，_net 表示网卡等的网络传输能力，_mem表示内存大小，x,y,z,u分别表示对应资源的大小，_data表示任务所需数据，time指当前类型任务所消耗时间。

在一个实施例中，集群中的作业结合数据分片或数据分布被分配为多个任务，随机挑取一定比例的任务进行随机资源的分配和执行，来获取不同类别资源下任务的执行时间，并由任务分类模型库记录下来，获得各个任务的最优执行策略。

对于不同的任务类型，如IO密集型、CPU密集型、或高耗内存型，以各个类型的任务试运行所需资源、所消耗的时间结果(任务耗时时间)来拟合任务执行公式(1)，获得任务执行公式中各项的值，作为该任务类型的代表执行策略。

在一个实施例中，任务作为对象一个向IDC集群申请计算相关资源，计算相关资源包括相应的5个维度：cpu、disk、net、mem、 data；对于同一类型的任务，通过“试运行”任务对5个维度进行随机分配，获得不同状态下的执行输出结果，以“试运行”最优结果为本类任务的代表执行策略。最优结果例如选取计算耗时最短情况下所占资源用量最少，或者所占资源使用类别最合理的执行策略；将各个类型任务的代表执行策略存入“任务分类模型库”，在集群实际运行时为当前多作业提供整体的任务执行最优策略指导服务。该实施例中，通过机器学习获得不同类别的任务的代表执行策略，使其具有更好的统计意义上的代表性，从而生成更好的全局最优执行策略。

步骤203，IDC集群周期上报当前可用计算资源、数据资源、传输资源。其中，计算资源\传输资源可以通过集群监控集团周期实时获得；数据资源可以在具体作业运行时指定分配。

步骤204，用户提交作业，其中包含待处理数据和期望输出。其中，待处理数据为本次作业计算所需的数据；期望输出与当前任务期望有关，有的任务期望输出原始数据进行抽样即可。

步骤205，调度组件根据作业，获取待处理的数据分布和当前集群计算资源与传输资源。

步骤206，调度组件根据可用资源池中的[各个IDC集群可用计算资源、作业数据分布]矩阵和[各个任务所需的资源以及所消耗的时间、各个集群可用网络资源]矩阵进行两两计算，获得一个当前最优的执行策略。最优执行策略例如是执行时间最短的执行策略。

大数据技术理论上是：按照数据分布划分计算资源。但现实是，一些任务所需的数据不是集群最优分配，可能会集中在某些集群，导致任务运行相应集群的计算单元不够，必须通过网络传输部分数据到其它集群然后在其它集群申请计算资源。

也就是说，根据某任务所需数据分布和当前集群可用计算资源、传输资源的状态，调度策略最优分配计算资源给每个当前在运行的任务。

不同的作业具有不同的QoS要求，为具有较高QoS要求的作业分配较高的作业权重，让集群计算资源在作业权重的分配下达到使用利用率最大化，从而使得调度组件进行策略分配时，优先照顾具有较高QoS要求的作业。

调度组件根据可用资源池中的：

A.[各个集群可用计算资源、作业数据分布]矩阵

B.[各个任务所需的资源以及耗时、集群可用网络资源]矩阵

通过优化算法两两计算，获得一个当前最优执行策略，例如执行时间最短的执行策略。优化算法例如包括蚁群、DNA、退火等优化算法。

通过采用优化算法，快速计算出下一个集群计算周期内的最优执行策略：

当前集群运行多任务(每个任务的代表公式)<＝>现有集群各集群可用资源池；最优匹配分配方式，即在下一个集群资源分配窗口期内，调度策略分配计算资源能最大限度地处理掉任务池中尽量多的作业。在集群资源分配窗口期，集群可用资源池内资源按照业务权重有选择地的组合每个“任务执行资源配比”，此处“有选择地”指作业权重高的或数据所在设备有计算资源就尽量按照任务最优资源配比分配资源[IO密集、CPU密集等配比]，来实现多作业运行整体时间最优的策略。如果资源分配配比到后面，本集群计算资源不够，可通过网络用传输资源传输待处理数据至其他资源池的计算或分配不是最优资源配比。

每个任务的最优计算资源最优分配比例。即每个任务在不同资源配比模式(IO密集、CPU密集或高内存等资源配比)下最优资源分配比。每个作业下的任务不同，资源分配比例下运行耗时不同，某类资源分配比例下的耗时最短就为最优分配比例。

基于优化算法随机迭代，让矩阵A中的相关资源分配到矩阵B 各任务的代表执行公式中，通过比对最优策略选取集群最优的分配策略，处理完这些任务，最优的资源分配策略即全局运行完任务最短时间。简单来说，数据在A资源池但A资源池不能提供任务(或部分) 以最优配比计算资源来运行任务，通过调度中心集中汇聚的资源信息了解到，B资源池能提供当前任务所需最优资源配比且数据传输到B 资源池的耗时是可允许范围(比等待A资源池释放出足够资源要时间合理)。可以基于任务类别统计聚合任务。

调度组件下发本周期内最优执行任务至集群开始计算。待下一轮周期迭代执行204～206步骤，直到全部任务结束。

图3是示出根据本发明的跨IDC的大数处理架构下执行策略生成装置的一个实施例的结构图。如图3所示，该装置包括：

可用资源获取模块31，用于接收各个IDC集群上报的当前可用计算资源和网络传输资源；计算资源包括CPU、GPU等计算能力，存储空间、内存等存储能力，网络传输资源包括集群的网络传输速率、网卡传输能力等。

作业接收模块32，用于接收提交的作业，作业包括任务、作业数据和期望输出；

任务策略确定模块33，用于根据任务的类型基于任务分类模型库确定任务的代表执行策略，任务的代表执行策略包括所需计算资源和所消耗时间；

最优策略确定模块34，用于根据可用资源池中的[各个集群可用计算资源、作业数据分布]矩阵和[各个任务所需计算资源、和所消耗时间、集群的可用网络传输资源]矩阵进行调度，获得作业的当前最优执行策略。可以基于动态规划算法通过迭代的方式实现最优的分配或匹配。

图4是示出根据本发明的跨IDC的大数处理架构下执行策略生成装置的另一个实施例的结构图。如图4所示，该装置还包括任务分类模型库建立模块45，用于通过机器学习建立任务分类模型库。任务分类模型库建立模块：任务作为一个对象向集群申请相关资源，相关资源包括5个维度：cpu、disk、net、mem、data；通过“试运行”任务对相关资源的5大维度的随机分配，获得不同状态下的执行输出结果，获得“试运行”最优结果(所占资源用量最少，计算耗时最短) 的最优执行策略；将任务的最优执行策略存入任务分类模型库作为本类任务的代表。

相对于现有批量大数据处理功能，本申请的技术方案存在以下优点：

1)能在跨IDC搭建下的大数据处理平台高利用率使用计算、网络资源。目前业界内并不存在这种通用的跨IDC的调度策略模式。

2)在此策略下，能满足不同业务的服务质量要求。大数据下服务质量(Qos)典型的有：a.批量处理(数据分析，机器学习，大数据统计)；b.交互性(查询，过滤)；c.生产性(实时统计，

跟踪分析)。作业的不同业务服务质量以作业权重的方式体现在分配策略上，权重可以等同于耗时＝(实际耗时*权重)。

3)灵活的业务扩展能力。

本申请提供了一种通用的调度策略，不限于针对某个业务做具体的设计，方案适用范围广，可以兼容目前通用的调度***接口。

至此，已经详细描述了根据本发明的跨IDC的大数处理架构下执行策略生成方法、装置。为了避免遮蔽本发明的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本发明的方法和***。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和***。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种跨互联网数据中心IDC的大数据处理架构下执行策略生成方法，其特征在于，包括：

所述调度组件根据集群可用资源池中的[集群可用计算资源、作业数据分布]矩阵和[各个任务所需计算资源、和所消耗时间、集群可用网络传输资源]矩阵进行调度，获得所述作业的当前最优执行策略；

还包括：

对于每个类型的任务，通过试运行任务对相关资源进行随机分配，获得不同相关资源分配状态下的任务执行输出结果，获得任务试运行结果最优的最优执行策略；

将任务的最优执行策略作为该任务类型的代表执行策略存入任务分类模型库。

2.根据权利要求1所述的方法，其特征在于，还包括：

通过机器学习建立所述任务分类模型库。

3.根据权利要求2所述的方法，其特征在于，所述通过机器学习建立所述任务分类模型库包括：

任务作为一个对象向IDC集群申请相关资源，相关资源包括CPU、硬盘、内存、传输资源和任务所需数据。

4.根据权利要求1至3中任意一项所述的方法，其特征在于，所述计算资源包括CPU、硬盘、内存和传输资源。

5.根据权利要求1所述的方法，其特征在于，还包括：

基于作业的服务质量要求为作业分配不同的作业权重，具有较高服务质量要求的作业分配较高的作业权重，让集群计算资源在作业权重的分配下达到使用利用率最大化，从而进行策略分配时优先分配具有较高QoS要求的作业。

6.根据权利要求1所述的方法，其特征在于，所述调度组件根据可用资源池中的[集群可用计算资源、作业数据分布]矩阵和[各个任务所需计算资源、所消耗时间、集群可用网络传输资源]矩阵进行调度获得所述作业的当前最优执行策略包括：

基于优化算法随机迭代，将[集群可用计算资源、作业数据分布]矩阵中的相关资源分配到[各个任务所需计算资源和所消耗时间、集群可用网络资源]矩阵的各任务的公式中，通过比对最优策略选取集群最优的分配策略。

7.一种跨互联网数据中心IDC的大数据处理架构下执行策略生成装置，其特征在于，包括：

最优策略确定模块，用于根据可用资源池中的[集群可用计算资源、作业数据分布]矩阵和[作业的各个任务的所需计算资源和所消耗时间、集群可用网络资源]矩阵进行调度，获得所述作业的当前最优执行策略；

还包括：

任务分类模型库建立模块，用于对于每个类型的任务，通过试运行任务对相关资源进行随机分配，获得不同相关资源分配状态下的任务执行输出结果，获得任务试运行结果最优的最优执行策略；将任务的最优执行策略作为该任务类型的代表执行策略存入任务分类模型库。

8.根据权利要求7所述的装置，其特征在于，其中，

所述任务分类模型库建立模块，用于通过机器学习建立所述任务分类模型库。

9.根据权利要求8所述的装置，其特征在于，所述任务分类模型库建立模块将任务作为一个对象向集群申请相关资源，相关资源包括CPU、硬盘、传输资源、内存、任务所需数据。

10.根据权利要求7所述的装置，其特征在于，所述最优策略确定模块基于优化算法随机迭代，将[集群可用计算资源、作业数据分布]矩阵中的相关资源分配到[各个任务所需计算资源和所消耗时间、集群可用网络资源]矩阵的各任务的公式中，通过比对最优策略选取集群最优的分配策略。