CN115328638A

CN115328638A - 一种基于混合整数规划的多飞行器任务调度方法

Info

Publication number: CN115328638A
Application number: CN202211250312.9A
Authority: CN
Inventors: 吕金虎; 曲庆渝; 刘克新; 高庆
Original assignee: Beihang University; Academy of Mathematics and Systems Science of CAS
Current assignee: Beihang University; Academy of Mathematics and Systems Science of CAS
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2022-11-11
Anticipated expiration: 2042-10-13
Also published as: CN115328638B

Abstract

本发明涉及飞行器任务调度领域，具体为一种基于混合整数规划的多飞行器任务调度方法，包括将对地卫星任务调度问题建模为一个混合整数规划模型，利用分支定界方法对得到的混合整数规划问题进行求解，将分支定界问题建模为马尔科夫决策过程，求解分支定界问题，得到专家策略的数据集，利用模仿学习得到分支定界策略，测试策略求解时间并迭代更新策略池，直至求解时间不再减少后输出最终训练得到的策略。本方法利用分支定界方法对其进行求解，可以近似保证解的最优性，在保证最优性的前提下，提高分支定界方法的求解速度。

Description

一种基于混合整数规划的多飞行器任务调度方法

技术领域

本发明涉及飞行器任务调度领域，尤其涉及混合整数规划问题，具体为一种基于混合整数规划的多飞行器任务调度方法。

背景技术

飞行器是在大气层内或大气层外空间（太空）飞行的器械。其中，在大气层内飞行的称为航空器。在太空飞行的称为航天器，如卫星、载人飞船、空间探测器、航天飞机等。其中，在航天器中，对地观测卫星在国民经济和社会发展中发挥着重要的作用，其应用领域包括气象预报、国土普查、作物估产、森林调查、地质找矿、海洋预报、环境保护、灾害监测、城市规划、地图测绘等方面。

卫星任务调度技术是指在卫星任务需求与管控需求的驱动下，通过对任务和资源的建模，在满足任务约束与资源约束的条件下，最大化卫星任务效益与管控效益的一种优化技术。随着在轨卫星数量的不断增加，卫星任务调度呈现出大规模、复杂化等新常态和灵活组网、快速响应等新需求。因此，设计高效智能的卫星任务调度方法是卫星任务调度技术研究发展的必然要求。

混合整数规划是一种通用的优化技术，在多个领域有着极为广泛的应用。混合整数规划指部分决策变量限制为整数的数学优化问题，它对于解决生产计划、任务调度、路径规划等复杂的组合优化问题都具有极为重要的作用。对其基本理论和计算方法的研究最早可以追溯至几十年前，至今仍然有大量学者在该领域内不断进行更深入的研究和探索。如CN 111091242 A公开了一种电力负荷的最优非参数区间预测方法，该方法构建了基于机器学***，并以最小化区间宽度为训练目标，摆脱了传统电力负荷区间预测对参数化概率分布和单一分位水平的限制。CN 113568675 A公开了一种基于分层强化学习的车联网边缘计算任务卸载方法，将车联网边缘计算任务卸载问题建模为非线性混合整数规划问题。

尽管快速求解混合整数规划问题对于卫星任务调度问题以及卫星在轨执行任务具有非常重要的意义，但是这类问题的求解往往是NP难问题，即没有一种多项式时间算法可以保证能够求解一般的混合整数规划问题。目前，求解混合整数规划问题的算法除了一些精确的数值方法（如分支定界法、分支切割法等）外，还包括一些启发式算法，这些启发式算法因其简单、高效而被广泛使用。然而，很多有效的启发式算法，包括局部分支等，往往都需要一个初始可行的解决方案才可以进一步进行求解。因此，找到一个可行的解决方案通常是解决混合整数规划问题的第一步，也是非常关键的一步。但是，即便仅仅求可行解，该问题也是一个NP难问题。即使是技术较为成熟的一些商业求解器，如CPLEX、Gurobi、SCIP等，也可能在求解过程中遇到困难，甚至求解失败。目前，求解卫星任务调度问题的方法主要可以分为三类，即启发式方法、精确求解方法以及元启发式方法。比较常用的几种启发式方法包括优先级排序算法、冲突消解算法、任务分配算法等，可以有效降低问题的求解难度和决策维度，从而快速构造可行解。以分支定界算法、动态规划算法为代表的精确求解方法能够求得卫星任务调度问题的全局最优解，在动态或不确定环境下也可以保证解的全局最优性。而以演化算法、局部搜索算法为主的元启发式方法的主要思想是，在全局解空间内从初始解出发有选择地向优质解移动，因此这类方法往往具有比较强的全局寻优能力。

这些调度方法表现出良好的优化效果，但也分别存在其各自的问题：启发式方法尽管可以快速构造高质量的可行解，但是往往无法保证解的最优性；精确求解方法可以解算给定模型的最优解，但是往往需要较大的计算量；元启发式方法的全局寻优能力较强，但一般需要进行复杂的编码设计前期工作且计算量也比较大。此外，近年来有学者提出了基于机器学习的卫星任务调度方法，通过监督学习、强化学习等手段解决卫星任务调度问题。该类方法往往兼具启发式方法简单、快速的特点与机器学习技术自学习、自适应的特点，但是往往也难以保证求解的最优性。

此外，近年来随着人工智能技术的发展，有些学者提出利用机器学习的思想求解卫星任务调度问题。基于机器学习的卫星任务规划调度方法是指通过监督学习、无监督学习、强化学习等手段，训练卫星任务调度求解模型，进而对卫星任务进行调度的一类方法。这类方法可以视为一种利用高级规则指导卫星任务调度问题的算法，它兼具启发式方法快速、简单的特点以及学习类方法自学习、自适应的特点。考虑到目前航天管控部门积累了大量卫星管控数据，因此该类数据驱动的方法具有极大的应用前景。

发明内容

针对现有的这些问题，本发明提供一种基于混合整数规划的多飞行器任务调度方法，在不增加求解过程复杂性的前提下，提高求解效率。

本发明完整的技术方案包括：

一种基于混合整数规划的多飞行器任务调度方法，包括如下步骤：

步骤1，对多飞行器的任务属性与资源属性进行分析，将多飞行器的任务调度问题建模为一个混合整数规划模型；

步骤2，利用分支定界方法对得到的混合整数规划问题进行求解，将分支定界问题建模为马尔科夫决策过程，确定所述马尔科夫决策过程中状态、动作、奖励以及转移关系的设置；

步骤3，利用StrongBranch和Pseudo-costBranch两种启发式算法求解步骤2得到的分支定界问题，在求解过程中收集由StrongBranch算法得到的“状态-动作”数据，获得专家策略的数据集；

步骤4，基于得到的“状态-动作”数据，利用模仿学习方法进行模型训练，得到分支定界策略，并放入策略池；

步骤5，在步骤1得到的混合整数规划模型上测试步骤4所得策略的求解时间；

步骤6，利用Pseudo-cost Branch算法以及策略池中的策略求解步骤2中得到的分支定界问题，在求解过程中按回合收集所有策略得到的数据，计算相应的累计奖励，并更新专家策略的数据集；

步骤7，利用强化学习方法对步骤6中得到的数据进行筛选，筛选依据为每组“状态-动作”数据上的累计奖励，仅保留累计奖励较高的数据，并更新策略池；

步骤8，重复步骤4-7，直至模型求解时间不再减少；

步骤9，输出最终训练得到的策略。

所述步骤2的马尔科夫决策过程中的状态包括分支定界的节点状态信息以及可以进行分支定界的候选变量集合；动作为在当前节点上选中进行分支定界的最终候选变量；奖励为在当前节点上选择某变量进行分支定界所需要的求解时间的相反数；转移关系为在当前节点上选择某变量进行分支定界，并得到分支定界决策树上下一个节点。

所述飞行器为对地观测卫星。

本发明相对于现有技术的优点在于：

（1）完成了多飞行器任务调度问题的数学建模，考虑多飞行器任务，尤其是卫星对地观测任务与数据传输任务的任务属性，以及星上有效载荷、地面站等资源属性，建立一个混合整数规划模型，方便利用分支定界方法对其进行求解，可以近似保证解的最优性。

（2）在得到描述多飞行器任务调度问题的混合整数规划模型后，利用分支定界方法求解该模型。将分支定界过程建模为了马尔科夫决策过程，明确此过程中状态、动作、奖励以及转移关系的设置，为了加快求解速度，引入强化学习的思想，保证最优性的同时可以提高求解效率。

（3）提出了一种基于强化学习的分支定界方法，结合模仿学习以及强化学习的观点，来辅助进行分支变量的选择，在此过程中避免了繁杂的计算，在保证最优性的前提下，提高分支定界方法的求解速度。

附图说明

图1为本发明基于混合整数规划的多飞行器任务调度方法的流程示意图。

图2为本发明中分支定界子节点的二部图。

具体实施方式

下面将结合本申请实施方式中的附图，对本申请的实施方式中的技术方案进行清楚、完整的描述，显然，所描述的实施方式仅仅是作为例示，并非用于限制本申请。

以下结合实施例和附图对本发明进行详细描述，但需要理解的是，所述实施例和附图仅用于对本发明进行示例性的描述，而并不能对本发明的保护范围构成任何限制。所有包含在本发明的发明宗旨范围内的合理的变换和组合均落入本发明的保护范围。

需要指出的是，在本实施方式所用的参数符号中，如无特殊说明，

代表为

矩阵，上角标T代表转置矩阵，如c ^T代表c的转置矩阵；

代表n维向量；其余在本实施方式中未明确定义的参数符号均为推导过程中的中间变量，不具备实际物理含义且并不影响对本实施方案技术方案的理解。

本实施方式以卫星任务调度问题的求解为例，对基于混合整数规划的多飞行器任务调度方法进行说明，其流程如图1所示，策略方案包括以下步骤：

步骤1，对对地观测卫星的任务属性与资源属性进行分析，将对地卫星任务调度问题建模为一个混合整数规划模型；

给定卫星任务调度问题如下：

式中STSP为一个多资源、多任务、多时间窗口、多优化目标和多约束的组合优化问题；其中S为场景中的执行用户任务的卫星集合，集合的属性包括用于执行任务的卫星的轨道参数、卫星有效载荷参数；G表示地面站资源，包括常规地面站、极地站、移动站；R表示中继星资源；Φ表示用户任务需求，包括图像要求（类型、分辨率、云层厚度等）、地理位置、时间约束；Σ表示外部环境，包括气象条件、人工约束等；sts表示任务调度的开始时间，ste表示任务调度的结束时间。

在一种具体的实施方式中，上述卫星任务调度问题包括由多颗卫星组成的卫星集合，执行由多个任务组成的任务集合。其中每个任务包括观测阶段和数据传输阶段，每颗卫星包括多个可用观测时间窗口和可用数据传输时间窗口，以任务i，任务j代表任务集合中的两个具体任务编号，以卫星q代表卫星集合中某一具体卫星，对卫星任务调度问题进行说明：

确定卫星任务调度的决策变量，包括：

1）将任务i分配给卫星q；2）任务i在卫星q的第y个可用观测时间窗口进行观测；3）任务i在卫星q的第y个可用观测时间窗口进行观测时所用的时间；4）任务i在卫星q的第z个可用数据传输时间窗口进行数据传输；5）任务i在卫星q的第z个可用数据传输时间窗口进行数据传输时所用的时间；6）任务i和任务j被同时分配给卫星q时，进行观测的优先级；7）任务i和任务j被同时分配给卫星q时，进行数据传输的优先级；

上述调度过程的约束条件包括：

1）每个任务必须要选择一个卫星来执行，且选中后仅可在该卫星的可用时间窗口内执行任务；2）实际观测窗口必须要在可用观测时间窗口范围内；3）实际数据传输窗口必须要在可用数据传输时间窗口范围内；4）总观测时间与数据传输时间必须满足给定要求；5）须满足设定的任务执行顺序；6）每颗卫星上存储的任务数不超过3个，为内存约束；7）对于每个任务，观测必须先于数据传输完成；8）每个时间窗口最多同时执行一个任务；9）每个任务必须要在自己的截止时间之前完成；10）总任务完成时，所有子任务均已完成。

根据上述决策变量和约束条件进行多颗卫星执行多个任务的调度，并得到完成所有任务的总时间（即在最后一个任务的完成时间之后），将完成所有任务的总时间最短作为优化目标。

将上述问题建模为如下混合整数规划问题：

其中，

为上述卫星任务调度中确定的决策变量，

为使决策变量

取最小值的函数；

为目标系数向量，c ^T为c的转置矩阵，

为约束系数矩阵，

为约束向量，

表示决策变量的下界，

表示决策变量的上界，

表示整数决策变量的个数，

表示决策变量的个数。

步骤2，利用分支定界方法对得到的混合整数规划问题进行求解，将分支定界问题建模为马尔科夫决策过程，并建立该过程中状态、动作、奖励以及转移关系如下：

状态：包括分支定界的节点状态信息以及可以进行分支定界的候选变量集合；

其中节点状态信息以二部图的形式表示。即，将分支定界的节点状态信息

编码为一个二部图，其中

表示节点，

表示在该节点的约束信息，

表示在该节点的变量信息，

表示在该节点处变量与约束的耦合关系。该二部图的结构如图2所示。

动作：在当前节点上选中进行分支定界的最终候选变量。

奖励：在当前节点上选择某变量进行分支定界所需要的求解时间的相反数，即求解时间越短，即时奖励越高。

转移关系：在当前节点上选择某变量进行分支定界，得到分支定界决策树上下一个节点。

步骤3，利用StrongBranch和Pseudo-costBranch两种启发式算法与求解器（这里选择开源求解器SCIP）进行交互，求解步骤2中得到的分支定界问题，在求解过程中收集由StrongBranch算法得到的数据（“状态-动作”对），获得专家策略的数据集，所述的数据集包含数据，用于优化并形成专家策略。

本步骤中，由于StrongBranch方法可以得到最小的分支定界决策树，所以利用这些数据训练得到的模型可以近似保证最优性，其中，StrongBranch方法的特点是在当前节点上选择在目标边界上提供最大改进的候选变量作为最终候选变量，利用该方法进行分支定界可以获得一个最小的分支定界决策树。但考虑到在所有节点上都选择StrongBranch方法进行分支定界所需求解时间过长且决策树结构单一，在获得专家策略数据集的过程中，引入Pseudo-cost Branch方法这一快速但不够准确的方法来鼓励对更多节点的探索。这里我们设置，在每个节点上，90%的概率会利用Pseudo-cost Branch方法进行求解，10%的概率会利用StrongBranch方法进行求解。由于StrongBranch方法可以近似保证最优性，因此这里仅保留利用StrongBranch方法求解获得的数据。

步骤4，基于步骤3中得到的数据，利用模仿学习方法，以损失函数最小化为目标进行模型训练，得到分支定界策略，放入策略池。

在训练策略时使用如下交叉熵作为损失函数：

其中，

为交叉熵损失函数，

为神经网络的参数，

为当前获得的专家策略的数据集，

为数据集的大小，

为数据集中的“状态-动作”对，

为拟学习的策略。

步骤5，在步骤1得到的混合整数规划模型上测试步骤4所得策略的求解时间。

步骤6，利用Pseudo-cost Branch算法以及策略池中的策略与求解器进行交互，求解步骤2中得到的分支定界问题，在求解过程中按回合收集所有策略得到的数据，并计算相应的累计奖励，并更新专家策略的数据集。

策略池中的策略这里设置为，在每个节点上，选择每种策略（包括Pseudo-costBranch方法）的概率是等同的，在求解过程中按回合收集所有策略得到的数据，以便于按照下式利用强化学习的方法计算在节点

上的累计奖励：

其中，

表示从当前节点

到回合结束的累计奖励，

表示折扣因子，

表示在第t步的即时奖励。

步骤7，利用强化学习的方法对步骤6中得到的数据进行筛选，以保证数据的近似最优性，筛选依据为每组“状态-动作”对上的累计奖励，仅保留累计奖励较高的策略并更新步骤4中的策略池。

具体做法是利用一个神经网络

来拟合每个状态上的累计奖励的上确界，进而可以认为那些累计奖励靠近

的“状态-动作”对，其动作都是由近似最优策略生成的，据此依照下式挑选出这些比较好的“状态-动作”对，利用模仿学习以得到近似最优策略：

其中

是一个超参数，它和选出的“状态-动作”对在总数据集中的占比是一一对应的，先设置比例值，从而确定

的取值；

的含义是当前节点的状态信息。

步骤8，重复步骤4-7，直至模型求解时间不再减少；

步骤9，输出最终训练得到的策略。

以上申请的仅为本申请的一些实施方式。对于本领域的普通技术人员来说，在不脱离本申请创造构思的前提下，还可以做出若干变型和改进，这些都属于本申请的保护范围。