CN113269297A

CN113269297A - 一种面向时间约束的多智能体的调度方法

Info

Publication number: CN113269297A
Application number: CN202110810946.4A
Authority: CN
Inventors: 朱晨阳
Original assignee: Donghe Software Jiangsu Co ltd
Current assignee: Donghe Software Jiangsu Co ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-08-17
Anticipated expiration: 2041-07-19
Also published as: CN113269297B

Abstract

本发明涉及一种面向时间约束的多智能体的调度方法，步骤如下：建立调度中心；调度中心采集多智能体和随机环境的状态和动作的实时数据；调度中心对采集的数据进行处理，将动作指令发送给多智能体；本发明通过在随机博弈模型中引入时间约束，可以描述多智能体之间或者多智能体与随机环境交互过程中表现出的实时性、非确定性和概率行为，还可以量化与时间相关的奖励函数，通过奖励函数确定多目标优化策略；根据设计的算法提高计算模型最大奖励期望的效率以及基于权重组合的帕累托曲线拟合效率，从而提高了多智能体的反应速度；通过对多个目标赋予不同的权重，区分目标的优先级，从而提高了多智能体运行的可靠性。

Description

一种面向时间约束的多智能体的调度方法

技术领域

本发明涉及多智能体交互技术领域，特别涉及一种面向时间约束的多智能体的调度方法。

背景技术

随着多智能体（机器人、机器狗或无人机等）之间的交互日益密切，交互时产生的错误也随着多智能体***的规模和复杂度的增加而不断增加。如何设计多智能体的调度***，使其在不确定环境以及相应的时间约束下满足多目标设计需求成为了眼下迫切需要解决的关键科学问题。

目前对多智能体的调度***的研究主要通过模型检验的方法验证模型的量化属性以及奖励函数相关的属性，并通过值迭代的方法逼近模型的帕累托最优。然而对于面向时间约束的多智能体调度的多目标优化仍存在以下问题尚未解决：

（1）采用模型检验需要对多智能体和随机环境的状态空间进行穷举搜索，而随着并发分量的增加，模型的状态数目会呈指数增长，从而导致状态空间***的问题；

（2）在面向时间约束的随机博弈模型中奖励函数可能是对时间的积分，而在运行时间不确定的情况下，奖励函数也是可变的，所以基于模型的值迭代和策略迭代算法不适用于此种场景；

（3）在组合多智能体的多个目标策略时缺少对目标优先级差异性的描述，缺少权衡基于权重组合的多目标优化策略的研究。

发明内容

本发明的目的是克服现有技术存在的缺陷和不足，提供一种理念先进，可靠性高以及速度快的面向时间约束的多智能体的调度方法。

实现本发明目的的技术方案是：一种面向时间约束的多智能体的调度方法，步骤如下：

S1.建立调度中心，具体为：

S11.基于面向时间约束的多目标随机博弈模板建立面向时间约束的多智能体与随机环境之间或多智能体之间的随机博弈模型；

S12.根据统计模型检验模拟随机博弈模型的运行轨迹，设计不基于模型的值函数学习方法计算多智能体在各种状态下采取不同动作的最大奖励期望；

S13.根据多智能体与随机环境之间的零和随机博弈以及多智能体之间的一般和随机博弈的收敛条件对算法进行迭代；

S14.根据凸优化的超平面分离定理对基于权重组合的多目标帕累托曲线进行拟合；

S2.调度中心采集多智能体和随机环境的状态和动作的实时数据；

S3.调度中心对采集的数据进行处理，将动作指令发送给多智能体。

进一步地，步骤S11具体为：

S111.面向时间约束的多目标随机博弈模板为一个十元组

，其中：

表示参与随机博弈的参与方多智能体和随机环境的有限集合；

表示多智能体和随机环境的状态的有限集合；

表示多智能体和随机环境的初始状态，

；

表示某个智能体或随机环境

的状态的有限集合，

，

；

表示多智能体的动作的有限集合；

表示所有时钟的有限集合；

表示时钟约束条件的集合；

表示多智能体在状态

上关于时钟约束的不变式条件；

表示多智能体在状态

上采取

动作时的时钟约束；

表示多智能体从

状态经过

的动作到

状态的状态转移函数，

表示

的概率分布；

表示多智能体的状态以及动作所对应的奖励函数，

表示实数；

S112.建立面向时间约束的多智能体与随机环境之间或多智能体之间的多目标随机博弈模型采用

作为多智能体在路径

下的动作集合

的选择策略，以

为策略的奖励期望公式如下：

式中：

表示多智能体在状态

所对应的奖励函数；

表示多智能体在动作

所对应的奖励函数；

；

表示多智能体的期望奖励函数；

表示策略；

表示多智能体选择策略

的概率分布。

进一步地，步骤S111所述时钟约束条件的集合

中时钟约束条件

由如下公式归纳定义；

式中：

是

中的一个时钟，

是一个常数，

，

，

。

进一步地，步骤S12具体为：

S121.采集多智能体在随机环境里面所有的状态和动作的初始数据；

S122.基于采集的数据建立面向时间约束的随机博弈模型，通过UPPAAL-SMC模拟随机博弈模型的运行轨迹，探索多智能体在随机环境里面所有的状态和动作并训练目标策略；

S123.通过离线学习模拟运行轨迹建立多智能体的状态-动作价值函数表

，所述价值函数表

定义为在状态

下采取动作

的价值函数，其中：

表示状态元组，

表示动作元组，

表示状态的不同分类集合，

表示目前状态所属的博弈参与方。

进一步地，步骤S13具体为：

S131.针对双人零和随机博弈，首先初始化状态-动作价值函数表

，在选取每个状态

对应的动作时，多智能体或随机环境根据

贪婪法来选择

对应的动作，最后采用累计更新平均值的方法更新价值函数，公式如下：

式中：

表示近似累积计算的次数，可视为步长，

；

表示估计回报，即带衰减的未来收益的总和；

S132.针对多人一般和随机博弈，首先初始化状态-动作价值函数表

，在选取每个状态

对应的动作时，多智能体根据

贪婪法来选择

对应的动作，最后采用纳什均衡函数更新价值函数，公式如下：

式中：

表示近似累积计算的次数，

；

表示多智能体的个数；

表示衰减值；

表示当前多智能体得到的奖励；

表示状态

在执行选择的动作

后得到的新状态；

表示从

开始多智能体采取联合策略

计算的长期平均回报。

进一步地，步骤S132所述一般和随机博弈中某个智能体

的纳什均衡函数

满足下列公式：

式中：

为某个智能体

的策略集合；

表示多智能体的个数。

进一步地，步骤S14具体为：

S141.将多目标奖励的加权和作为优化目标，计算多目标优化的加权和，公式如下：

式中：

表示权重向量，

表示奖励向量，

表示策略，

表示加入了权重组合的期望奖励函数；

表示在策略

下的目标奖励加权和；

表示多智能体选择策略

的概率分布；

S142.根据凸优化的超平面分离定理对不同权重组合的多目标帕累托曲线进行拟合。

采用上述技术方案后，本发明具有以下积极的效果：

（1）本发明在随机博弈模型中引入时间约束，一方面可以描述多智能体之间或者多智能体与随机环境交互过程中表现出的实时性、非确定性和概率行为，另一方面可以量化与时间相关的奖励函数，并通过奖励函数确定多目标优化策略。

（2）本发明通过设计离线算法根据蒙特卡洛模拟轨迹计算预期奖励期望，避免在计算最大奖励期望时产生的状态空间***问题，并根据零和随机博弈以及一般和随机博弈收敛条件降低算法的迭代次数，从而降低了***的能耗，提高了多智能体的反应速度。

（3）本发明对多个目标赋予不同的权重，区分目标的优先级，从而提高了多智能体运行的可靠性。

附图说明

为了使本发明的内容更容易和清楚地被理解，下面根据具体实施例并结合附图，对本发明作进一步的详细说明，其中：

图1为本发明调度中心的框架图；

图2为本发明流程图；

图3为本发明中双人零和随机博弈价值函数表生成方法；

图4为本发明中多人一般和随机博弈价值函数表生成方法；

图5为本发明中帕累托曲线生成方法；

图6为本发明中基于权重组合的帕累托曲线拟合图；

图7为本实施例1中多机器人与随机环境动态博弈模型示意图；

图8为本实施例2中多机器人之间动态博弈模型示意图。

具体实施方式

如图1-5所示，一种面向时间约束的多智能体的调度方法，步骤如下：

S1.建立调度中心，具体为：

S11.基于面向时间约束的多目标随机博弈模板建立面向时间约束的多智能体与随机环境之间或多智能体之间的随机博弈模型，具体如下：

S111.面向时间约束的多目标随机博弈模板为一个十元组

，其中：

表示多智能体和随机环境的状态的有限集合；

表示多智能体和随机环境的初始状态，

；

表示某个智能体或随机环境

的状态的有限集合，

，

；

表示多智能体的动作的有限集合；

表示所有时钟的有限集合；

表示时钟约束条件的集合，时钟约束条件

由公式

定义，式中：

是

中的一个时钟，

是一个常数，

，

，

；比如某个状态需要延迟

，则状态

所对应的

则会有时间约束

，而某个状态受到截止时间

约束，则对应的

存在约束

。同时，

也可以是不同时间约束的组合，比如

。同时，

也接受逻辑反操作。

表示多智能体在状态

上关于时钟约束的不变式条件；

表示多智能体在状态

上采取

动作时的时钟约束；

表示多智能体从

状态经过

的动作到

状态的状态转移函数，

表示

的概率分布；

表示多智能体的状态以及动作所对应的奖励函数，

表示实数；

作为多智能体在路径

下的动作集合

的选择策略，以

为策略的奖励期望公式如下：

式中：

表示多智能体在状态

所对应的奖励函数；

表示多智能体在动作

所对应的奖励函数；

；

表示多智能体的期望奖励函数；

表示策略；

表示多智能体选择策略

的概率分布。

S12.根据统计模型检验模拟随机博弈模型的运行轨迹

，设计不基于模型的值函数学习方法计算多智能体在各种状态下采取不同动作的最大奖励期望，具体如下：

S122.基于采集的数据建立面向时间约束的随机博弈模型，通过UPPAAL-SMC（一种统计模型检验工具）模拟随机博弈模型的运行轨迹

，探索多智能体在随机环境里面所有的状态和动作并训练目标策略；

S123.通过离线学习模拟运行轨迹

建立多智能体的状态-动作价值函数表

，价值函数表

定义为在状态

下采取动作

的价值函数，其中：

表示状态元组，

表示动作元组，

表示状态的不同分类集合，

表示目前状态所属的博弈参与方。

S13.根据多智能体与随机环境之间的零和随机博弈以及多智能体之间的一般和随机博弈的收敛条件对算法进行迭代，具体如下：

，在选取每个状态

对应的动作时，多智能体或随机环境根据

贪婪法来选择

对应的动作，即若

对应的动作集合

，则会有

的概率选择最大化价值函数表的动作，而也有

的概率随机选择动作；状态

在执行选择的动作

后会得到新的状态

以及对应的奖励

；假设博弈参与方分别为

与

，其状态集合分别为

与

，且模型目标为最大化参与方

的收益。若下一步状态属于

，则需要最大化奖励，如公式（1）所示；若当下一步的状态属于

，则需要最小化奖励，如公式（2）所示；

（1）

（2）

式中：

表示当前得到的奖励，

表示当前最大化下一步的收益，

表示当前最小化下一步的收益，

表示衰减值；

最后采用累计更新平均值的方法更新价值函数，公式如下：

式中：

表示近似累积计算的次数，可视为步长，

；

表示估计回报，即带衰减的未来收益的总和；

，即对一个状态，不同的智能体都会有不同的动作，每个智能体通过观测其他智能体的动作与相应的奖励值从而生成最优策略；在选取每个状态

对应的动作时，不同的智能体根据

贪婪法来选择

对应的动作；状态

在执行选择的动作

后会得到新的状态

以及对应的奖励

；最后采用纳什均衡函数更新价值函数，公式如下：

式中：

表示近似累积计算的次数，

；

表示多智能体的个数；

表示衰减值；

表示当前多智能体得到的奖励；

表示状态

在执行选择的动作

后得到的新状态；

表示从状态

开始多智能体采取联合策略

计算的长期平均回报；

其中：

表示从

开始多智能体采取联合策略

计算的长期平均回报，满足下列公式，

为智能体

的策略集合。

S14.根据凸优化的超平面分离定理对不同权重组合的多目标帕累托曲线进行拟合，具体如下：

式中：

表示权重向量，

表示奖励向量，

表示策略，

表示加入了权重组合的期望奖励函数；

表示在策略

下的目标奖励加权和；

表示多智能体选择策略

的概率分布；

S142.若目标为计算最大奖励期望，计算奖励期望

的可行域

，其中：

表示奖励期望，

表示奖励期望集合，

，

表示可行域的集合，

，即存在

，可行域中的所有值

都小于

；若目标为计算最大奖励期望（比如最小化能耗情景），计算奖励期望

的可行域

；

S143.若目标为计算最大奖励期望，计算奖励期望

的不可行域

，其中

表示权重向量，

表示权重向量集合，

，

表示奖励期望向量，

表示奖励期望向量集合，

，

和

均表示向量内积，

表示不可行域的集合，

，即对任意权重组合的奖励期望，使得

；若目标为计算最小奖励期望，计算奖励期望

的不可行域

；

S144.计算方差最大的权重向量

的预期奖励期望，并计算可行域与不可行域之间的距离

；

S145.若此距离大于设定的

，则计算

使得由

构建的最大分隔超平面可以最大分离两个集合所在的区域，即扩大权重所对应可达集的覆盖面；根据距离函数的收敛性，可以将新生成的奖励期望

加入奖励期望集合

中，并不断迭代直至

小于

。

拟合基于不同权重向量组合的多目标奖励加权值的帕累托曲线需要遍历权重向量组合并多次计算相应奖励期望。若有

个目标的奖励，采用穷举搜索权重以及对应的最优奖励期望则需要在

的时间复杂度下计算每组权重向量组合的奖励期望。由于不同权重组合所产生的可达点集会有交叉，本发明采用期望奖励的不可达点集与可达点集逼近的方法选取权重组合

，尽可能扩大权重所对应的可达点集覆盖面，从而减少奖励期望计算数量，提高整个算法的效率。如图6所示，拟合基于权重组合的最小化双目标的帕累托曲线，首先计算

以及

两种极端情况下的奖励期望

与

，分别表示只考虑目标2与只考虑目标1的情况。首先根据

生成对应的直线，

表示奖励期望向量，这两根直线的交点与坐标轴所围成的区域是不可达集合，而两个可达点与奖励期望上限所围成的区域即是可达集合，不同权重会对应不同的可达点集以及最大分离超平面。所以可以取离原点最远的不可达点到可达区域的最大分离超平面的斜率作为权重，由奖励期望生成可达点，并形成可达点集合。如图6所示，取不可达集合离原点最远的点

，由凸集合超平面分离定理可知，一定存在超平面可以分离

点与可达集

。由此通过计算最大分离超平面，求得对应的权重取值

。通过

计算最大奖励期望，并加入

集合生成对应的可达集合与不可达集合。由图6可以看出可达集与不可达集的最大值在不断接近，当两者距离小于

时，则输出对应的可达点集合，其边界点即为帕累托曲线。

实施例1

如图7所示，多机器人（机器人M、机器人N）在随机环境下完成多个作业（作业T、作业T+1、作业T+2），调度这些机器人完成作业的过程会产生相应的能耗以及时延。由于机器人在完成作业的中途可能会发生故障，且不同机器人完成不同作业的时间不同。因此，首先基于面向时间约束的多目标随机博弈模板对多机器人在随机环境下完成多个作业这个***采用面向时间约束的零和随机博弈方法进行建模，博弈方分别为多机器人和随机环境。***主要由作业模型以及多机器的调度器模型两部分组成。作业模型有三个状态，分别为空闲状态、等待状态以及执行状态，每个作业由随机环境触发从空闲状态进入等待状态，若调度器确定了执行该作业的机器人并将该作业分配给对应的机器人执行，作业即进入执行状态；若中途机器人故障不能完成作业，作业则从执行状态进入等待状态等待下一个可用的机器人，在作业执行完成之后，作业从执行状态进入空闲状态。每个机器人有三个状态，分别为空闲状态、运行状态以及故障状态。机器人在空闲状态和运行状态时，分别有概率（1-p）以及（1-q）发生故障。在空闲状态时，若调度器分配了正在等待执行的作业，则机器人进入运行状态。每个机器人只能分配在其执行范围内的作业，在运行结束后返回空闲状态。若机器人在故障状态恢复正常工作后，则返回空闲状态。其次，通过UPPAAL-SMC模拟模型的运行轨迹

，探索在随机环境里面所有的状态和动作，然后通过采集到的数据训练目标策略，通过离线学***均值的方法更新价值函数

。最后，将完成作业的数量、所消耗的能耗以及完成作业的时间的加权和作为优化目标，根据凸优化的超平面分离定理拟合多目标帕累托曲线，从而生成多机器人在随机环境下完成多个作业的调度策略。

实施例2

本实施例与实施例1的方法相同，针对的是多机器人协同完成标本采集以及运输任务。如图8所示，多机器人（机器人M、机器人M+1、机器人M+2、…）需要在不同的任务点（任务点1-6）采集标本或进行标本处理，然后运输到目标点（目标点1、目标点2）。当一个机器人在某一个任务点进行任务时，任务点不对其他机器人开放，且任务点之间存在先后顺序，如任务点4只对完成任务点1任务的机器人开放，任务点5只对完成任务点1或者任务点2或者任务点3的机器人开放，任务点6只对完成任务点3的机器人开放。整个***存在不确定性，包括不同机器人在不同任务点执行任务时间的不确定性以及机器人在不同任务点之间移动时间的不确定性。在执行任务和移动过程中，机器人需要避开静态障碍物以及动态障碍物，并在每台机器人用电功率不同的条件下保证总体用电量最少，最终达到目标地点。机器人在任务点执行任务有三个状态，当机器人到达任务点时首先触发等待，若任务点已经有机器人在执行任务，则该机器人等待任务点任务完成，若其他机器人完成任务后，该机器人开始执行任务。若中途任务报错，则返回等待状态继续等待执行。当机器人在该任务点完成任务后，则寻找下一任务点完成任务。为建立多目标优化的任务调度策略，即在较短的时间以及较少的能耗下完成所有标本采集、处理、传输任务的策略，首先，基于面向时间约束的多目标随机博弈模板建立面向时间约束的一般和随机博弈模型，博弈的参与方为多机器人。其次，通过UPPAAL-SMC模拟模型的运行轨迹

，探索多机器人在随机环境里面所有的状态和动作，然后采集模拟数据训练多目标优化策略，通过离线学***面分离定理拟合多目标帕累托曲线，从而生成随机环境下多机器人协同采集样本并运输的多目标优化策略。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。