CN112631693B

CN112631693B - 运行时计算资源动态扩展方法

Info

Publication number: CN112631693B
Application number: CN201910903881.0A
Authority: CN
Inventors: 何王全; 董恩铭; 于康; 宋长明; 方燕飞; 漆锋滨
Original assignee: Wuxi Jiangnan Computing Technology Institute
Current assignee: Wuxi Jiangnan Computing Technology Institute
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2022-10-04
Anticipated expiration: 2039-09-24
Also published as: CN112631693A

Abstract

本发明公开了一种运行时计算资源动态扩展方法，发送资源扩展升级命令给正在运行的原课题；原节点接到升级信号后，进行通信环境清理；等待新进计算资源进行二次通信环境重构通信；新节点由作业管理启动程序，进入动态任务划分区域中；判断为资源升级新节点后，新节点进行通信环境清理；原节点与新节点进行二次通信环境重构；新节点按照动态任务划分规则自动进行分区，选取分区主节点，由分区主节点向全局主节点申请任务；全局主节点在接到原分区和新分区主节点的任务申请后，向原计算资源节点和新计算资源节点均匀分配任务，课题继续正常运行。本发明解决资源调整后的通信环境重构问题，在不中断已运行课题的基础上将空闲的计算资源分配给该课题，并动态分配未完成的任务，达到计算资源的最大化利用。

Description

运行时计算资源动态扩展方法

技术领域

本发明属于运行时***领域，尤其涉及一种运行时计算资源动态扩展方法。

背景技术

高性能计算***为众多领域的大规模并行应用的解算提供了可能，通常情况下，高性能计算***的计算资源是被多道应用课题共享的，每一个应用课题的运行规模不同，运行时间也有差异，常常存在某些应用课题结束运行、计算资源闲置，而某些应用课题还需要运行很长时间的情况。可否利用闲置的计算资源加速正在运行的应用课题成为亟待解决的技术问题。

任务并行类应用课题是将任务池中的任务分配给多个计算资源并行完成，如果任务之间有相关性，则动态增加新的计算资源可能会破坏任务映射关系，影响程序的正常运行；如果任务之间没有相关性，则对计算资源的规模和形状不敏感，可以对已有任务进行动态划分，可以考虑利用新的闲置资源加速应用的完成。

许多大规模任务并行类应用需要大量的计算资源和较长的计算时间，如果有新的计算资源可以利用，往往采取的方案为等待断点文件更新、中断正在运行的课题、整合资源后重新提交课题，这不仅给用户带来一定的负担，而且会造成一定时间内（等待断点文件更新期间）新计算资源的闲置浪费。

发明内容

本发明目的在于提供一种运行时计算资源动态扩展方法，以解决资源调整后的通信环境重构问题，在不中断已运行课题的基础上将空闲的计算资源分配给该课题，并动态分配未完成的任务，在保证课题运行结果正确性和完备性的基础上达到计算资源的最大化利用。

为达到上述目的，本发明采用的技术方案是：一种运行时计算资源动态扩展方法，包括以下步骤，

S1、发送资源扩展升级命令给正在正常运行的原课题；

S2、原课题所有原计算资源节点与新计算资源节点同时收到资源扩展升级命令后，分别进行如下步骤：

a、原课题所有原计算资源节点接到所述资源扩展升级命令后进行如下步骤，

a1、进行通信环境清理，释放相关环境变量；

a2、等待新进来的计算资源一起进行二次通信环境初始化，重构通信环境；

a3、通信环境初始化后，原计算资源节点更新动态任务划分信息，按动态任务划分的规则将新进来的新计算资源节点加入动态任务划分区域中；

b、新计算资源节点收到资源扩展升级命令，新计算资源节点由作业管理来启动任务，分别进行如下步骤，

b1、新计算资源节点启动程序，进入动态任务划分区域中；

b2、新计算资源节点进行通信环境清理；

b3、与原计算资源节点一起进行二次通信环境初始化和重构；

b4、按照动态任务划分规则自动进行分区，新计算资源节点自动分区成为动态任务划分的新的一部分进程区，并选取某一新计算资源节点作为新的分区主节点，由所述分区主节点向原计算资源节点中的全局主节点申请任务；

S3、原计算资源的全局主节点在接到原分区主节点和新分区主节点的申请任务后，向原计算资源节点和新计算资源节点均匀分配任务，课题继续正常运行。

上述技术方案中进一步改进的技术方案如下：

1. 上述方案中，所述动态任务划分能用于跨语言消息通信标准的消息库中

2. 上述方案中，所述跨语言消息通信标准的消息库为MPICH和Open MPI。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

1）本发明运行时计算资源动态扩展方法，解决资源调整后的通信环境重构问题，在不中断已运行课题的基础上将空闲的计算资源分配给该课题，并动态分配未完成的任务，在保证课题运行结果正确性和完备性的基础上达到计算资源的最大化利用。

2）本发明运行时计算资源动态扩展方法，对用户透明，用户只需要键入资源升级命令，告诉运行时***运行的作业可以进行资源的动态扩展，其他的处理都由运行时***自动完成。

3）本发明运行时计算资源动态扩展方法，有效利用新的空闲计算资源，加速了运行中课题的解算效率。

附图说明

附图1为本发明的流程图。

具体实施方式

下面结合实施例对本发明作进一步描述：

实施例：如图1所示，一种运行时计算资源动态扩展方法，包括以下步骤，

S1、发送资源扩展升级命令给正在正常运行的原课题；

a1、进行通信环境清理，释放相关环境变量；

b1、新计算资源节点启动程序，进入动态任务划分区域中；

b2、新计算资源节点进行通信环境清理；

所述动态任务划分能用于跨语言消息通信标准的消息库中。

所述跨语言消息通信标准的消息库为MPICH和Open MPI。

实施例进一步解释如下：

本发明中，计算资源动态扩展的定义为：对于任务并行类的应用，而且任务之间没有相关性的课题，在不改变原课题运行状态的情况下，将空闲的计算资源扩展进入正在运行的课题，扩展完成后会为所有计算资源动态分配未完成的任务，新老资源共同完成所有剩余任务，达到合理利用计算资源的目的。即本发明的运行时计算资源动态扩展方法要求必须是任务并行类的应用，而且任务之间没有相关性，这样就会在运行的任意时刻对计算资源的规模和形状都没有任何要求，所以才能在运行时增加计算资源提升解算效率。

计算资源动态扩展升级过程如下，在有空闲计算资源的情况下，用户只需键入资源扩展升级命令信号给正在运行的原课题。其中，资源扩展升级命令由作业管理实现，主要包括两部分内容：（1）新的计算资源开始运行与已有计算资源相同的目标码；（2）发送信号给原计算资源与新计算资源。

原课题所有原计算资源节点接到资源扩展升级命令信号后进行如下操作：（1）进行通信环境清理，释放相关环境变量；（2）等待新进的计算资源一起进行二次通信环境初始化，重构通信环境；（3）通信环境初始化后，原计算资源节点更新动态任务划分信息，按动态任务划分的规则将新进来的新计算资源节点加入动态任务划分区域中。

新计算资源节点收到资源扩展升级命令，新计算资源节点由作业管理来启动任务，新计算资源节点启动任务，进入动态任务划分区域中。通过环境变量判断点为新计算资源节点后进行通信环境清理，然后与原计算资源节点一起进行通信环境重构，重构完成后，原计算资源节点与新计算资源节点可以进行正常通信，新计算资源节点按照动态任务划分规则自动分区成为动态任务划分的新的区域，并选取某一新的计算资源节点（一般为该分区第一个节点）作为新的分区主节点，由该分区主节点向原计算资源节点中的全局主节点申请任务；原计算资源的全局主节点在接到原分区主节点和新分区主节点的任务申请后，向原计算资源节点和新计算资源节点均匀分配任务，课题继续正常运行。

上述原计算资源节点接到资源扩展升级命令信号进行的操作步骤与新计算资源节点收到资源扩展升级命令后信号进行的操作步骤是同时进行的，不分先后。

本发明中，原计算资源节点和新计算资源节点的通信环境需要重构，使原计算资源节点和新计算资源节点的通信环境一致。其中，原计算资源节点在接收到用户发起的升级命令后，会释放已经建立的通信域以及一些相关的全局信息，然后等待新计算资源节点。在用户发起升级命令后，所有新计算资源节点会运行该课题，当新计算资源节点进入动态任务划分函数后，函数判断这些点为新计算资源节点，随后这些点会同原计算资源节点一样释放已经建立的通信域，以及一些相关的全局信息。然后，新计算资源节点和原计算资源节点一起进行通信域的重构和全局信息的更新；重构完成后，按照动态任务划分规则自动进行分区，由分区主节点向全局主节点申请任务，全局主节点接到申请任务后，向新计算资源节点和原计算资源节点均匀分配任务，原课题继续正常运行。由此可见，计算资源动态扩展技术可以在不中断原课题的情况下将新的可利用资源有效利用起来，大大提升了应用课题的解算效率。

本发明可在语言消息通信标准（(Message Passing Interface ，MPI）的消息库（MPICH、Open MPI）中基于动态任务划分实现。

采用一种运行时计算资源动态扩展方法时，其解决了可否利用闲置的计算资源加速正在运行的应用课题的问题。计算资源动态扩展技术对用户透明，用户只需要键入资源升级命令，告诉运行时***运行的作业可以进行资源的动态扩展，其他的处理都由运行时***自动完成；有效利用新的空闲计算资源，加速了运行中课题的解算效率。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种运行时计算资源动态扩展方法，其特征在于：包括以下步骤，

S1、发送资源扩展升级命令给正在正常运行的原课题；

a1、进行通信环境清理，释放相关环境变量；

b1、新计算资源节点启动程序，进入动态任务划分区域中；

b2、新计算资源节点进行通信环境清理；

2.根据权利要求1所述的运行时计算资源动态扩展方法，其特征在于：所述动态任务划分能用于跨语言消息通信标准的消息库中。

3.根据权利要求2所述的运行时计算资源动态扩展方法，其特征在于：所述跨语言消息通信标准的消息库为MPICH和Open MPI。