CN113269297A - 一种面向时间约束的多智能体的调度方法 - Google Patents

一种面向时间约束的多智能体的调度方法 Download PDF

Info

Publication number
CN113269297A
CN113269297A CN202110810946.4A CN202110810946A CN113269297A CN 113269297 A CN113269297 A CN 113269297A CN 202110810946 A CN202110810946 A CN 202110810946A CN 113269297 A CN113269297 A CN 113269297A
Authority
CN
China
Prior art keywords
agent
random
representing
state
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110810946.4A
Other languages
English (en)
Other versions
CN113269297B (zh
Inventor
朱晨阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghe Software Jiangsu Co ltd
Original Assignee
Donghe Software Jiangsu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghe Software Jiangsu Co ltd filed Critical Donghe Software Jiangsu Co ltd
Priority to CN202110810946.4A priority Critical patent/CN113269297B/zh
Publication of CN113269297A publication Critical patent/CN113269297A/zh
Application granted granted Critical
Publication of CN113269297B publication Critical patent/CN113269297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种面向时间约束的多智能体的调度方法,步骤如下:建立调度中心;调度中心采集多智能体和随机环境的状态和动作的实时数据;调度中心对采集的数据进行处理,将动作指令发送给多智能体;本发明通过在随机博弈模型中引入时间约束,可以描述多智能体之间或者多智能体与随机环境交互过程中表现出的实时性、非确定性和概率行为,还可以量化与时间相关的奖励函数,通过奖励函数确定多目标优化策略;根据设计的算法提高计算模型最大奖励期望的效率以及基于权重组合的帕累托曲线拟合效率,从而提高了多智能体的反应速度;通过对多个目标赋予不同的权重,区分目标的优先级,从而提高了多智能体运行的可靠性。

Description

一种面向时间约束的多智能体的调度方法
技术领域
本发明涉及多智能体交互技术领域,特别涉及一种面向时间约束的多智能体的调度方法。
背景技术
随着多智能体(机器人、机器狗或无人机等)之间的交互日益密切,交互时产生的错误也随着多智能体***的规模和复杂度的增加而不断增加。如何设计多智能体的调度***,使其在不确定环境以及相应的时间约束下满足多目标设计需求成为了眼下迫切需要解决的关键科学问题。
目前对多智能体的调度***的研究主要通过模型检验的方法验证模型的量化属性以及奖励函数相关的属性,并通过值迭代的方法逼近模型的帕累托最优。然而对于面向时间约束的多智能体调度的多目标优化仍存在以下问题尚未解决:
(1)采用模型检验需要对多智能体和随机环境的状态空间进行穷举搜索,而随着并发分量的增加,模型的状态数目会呈指数增长,从而导致状态空间***的问题;
(2)在面向时间约束的随机博弈模型中奖励函数可能是对时间的积分,而在运行时间不确定的情况下,奖励函数也是可变的,所以基于模型的值迭代和策略迭代算法不适用于此种场景;
(3)在组合多智能体的多个目标策略时缺少对目标优先级差异性的描述,缺少权衡基于权重组合的多目标优化策略的研究。
发明内容
本发明的目的是克服现有技术存在的缺陷和不足,提供一种理念先进,可靠性高以及速度快的面向时间约束的多智能体的调度方法。
实现本发明目的的技术方案是:一种面向时间约束的多智能体的调度方法,步骤如下:
S1.建立调度中心,具体为:
S11.基于面向时间约束的多目标随机博弈模板建立面向时间约束的多智能体与随机环境之间或多智能体之间的随机博弈模型;
S12.根据统计模型检验模拟随机博弈模型的运行轨迹,设计不基于模型的值函数学习方法计算多智能体在各种状态下采取不同动作的最大奖励期望;
S13.根据多智能体与随机环境之间的零和随机博弈以及多智能体之间的一般和随机博弈的收敛条件对算法进行迭代;
S14.根据凸优化的超平面分离定理对基于权重组合的多目标帕累托曲线进行拟合;
S2.调度中心采集多智能体和随机环境的状态和动作的实时数据;
S3.调度中心对采集的数据进行处理,将动作指令发送给多智能体。
进一步地,步骤S11具体为:
S111.面向时间约束的多目标随机博弈模板为一个十元组
Figure 185614DEST_PATH_IMAGE001
,其中:
Figure 463755DEST_PATH_IMAGE002
表示参与随机博弈的参与方多智能体和随机环境的有限集合;
Figure 216947DEST_PATH_IMAGE003
表示多智能体和随机环境的状态的有限集合;
Figure 98316DEST_PATH_IMAGE004
表示多智能体和随机环境的初始状态,
Figure 47686DEST_PATH_IMAGE005
Figure 432531DEST_PATH_IMAGE006
表示某个智能体或随机环境
Figure 356624DEST_PATH_IMAGE007
的状态的有限集合,
Figure 990868DEST_PATH_IMAGE008
Figure 776553DEST_PATH_IMAGE009
Figure 547063DEST_PATH_IMAGE010
表示多智能体的动作的有限集合;
Figure 907637DEST_PATH_IMAGE011
表示所有时钟的有限集合;
Figure 763597DEST_PATH_IMAGE012
表示时钟约束条件的集合;
Figure 336661DEST_PATH_IMAGE013
表示多智能体在状态
Figure 945366DEST_PATH_IMAGE003
上关于时钟约束的不变式条件;
Figure 211262DEST_PATH_IMAGE014
表示多智能体在状态
Figure 757781DEST_PATH_IMAGE015
上采取
Figure 771087DEST_PATH_IMAGE016
动作时的时钟约束;
Figure 719451DEST_PATH_IMAGE017
表示多智能体从
Figure 156249DEST_PATH_IMAGE015
状态经过
Figure 471955DEST_PATH_IMAGE016
的动作到
Figure 386821DEST_PATH_IMAGE018
状态的状态转移函数,
Figure 986430DEST_PATH_IMAGE019
表示
Figure 594128DEST_PATH_IMAGE003
的概率分布;
Figure 895666DEST_PATH_IMAGE020
表示多智能体的状态以及动作所对应的奖励函数,
Figure 614223DEST_PATH_IMAGE021
表示实数;
S112.建立面向时间约束的多智能体与随机环境之间或多智能体之间的多目标随机博弈模型采用
Figure 68338DEST_PATH_IMAGE022
作为多智能体在路径
Figure 846938DEST_PATH_IMAGE023
下的动作集合
Figure 868728DEST_PATH_IMAGE010
的选择策略,以
Figure 656555DEST_PATH_IMAGE024
为策略的奖励期望公式如下:
Figure 699597DEST_PATH_IMAGE025
式中:
Figure 898366DEST_PATH_IMAGE026
表示多智能体在状态
Figure 394070DEST_PATH_IMAGE027
所对应的奖励函数;
Figure 454430DEST_PATH_IMAGE028
表示多智能体在动作
Figure 368290DEST_PATH_IMAGE029
所对应的奖励函数;
Figure 223114DEST_PATH_IMAGE030
Figure 471692DEST_PATH_IMAGE031
表示多智能体的期望奖励函数;
Figure 585011DEST_PATH_IMAGE024
表示策略;
Figure 602645DEST_PATH_IMAGE032
表示多智能体选择策略
Figure 893949DEST_PATH_IMAGE024
的概率分布。
进一步地,步骤S111所述时钟约束条件的集合
Figure 629824DEST_PATH_IMAGE012
中时钟约束条件
Figure 779789DEST_PATH_IMAGE033
由如下公式归纳定义;
Figure 917510DEST_PATH_IMAGE034
式中:
Figure 645294DEST_PATH_IMAGE035
Figure 868465DEST_PATH_IMAGE011
中的一个时钟,
Figure 589165DEST_PATH_IMAGE036
是一个常数,
Figure 315813DEST_PATH_IMAGE037
Figure 230811DEST_PATH_IMAGE038
Figure 410119DEST_PATH_IMAGE039
进一步地,步骤S12具体为:
S121.采集多智能体在随机环境里面所有的状态和动作的初始数据;
S122.基于采集的数据建立面向时间约束的随机博弈模型,通过UPPAAL-SMC模拟随机博弈模型的运行轨迹,探索多智能体在随机环境里面所有的状态和动作并训练目标策略;
S123.通过离线学习模拟运行轨迹建立多智能体的状态-动作价值函数表
Figure 925324DEST_PATH_IMAGE040
,所述价值函数表
Figure 772058DEST_PATH_IMAGE040
定义为在状态
Figure 107224DEST_PATH_IMAGE041
下采取动作
Figure 39408DEST_PATH_IMAGE042
的价值函数,其中:
Figure 367490DEST_PATH_IMAGE043
表示状态元组,
Figure 334309DEST_PATH_IMAGE044
表示动作元组,
Figure 574798DEST_PATH_IMAGE045
表示状态的不同分类集合,
Figure 259857DEST_PATH_IMAGE046
表示目前状态所属的博弈参与方。
进一步地,步骤S13具体为:
S131.针对双人零和随机博弈,首先初始化状态-动作价值函数表
Figure 611204DEST_PATH_IMAGE040
,在选取每个状态
Figure 448841DEST_PATH_IMAGE047
对应的动作时,多智能体或随机环境根据
Figure 594651DEST_PATH_IMAGE048
贪婪法来选择
Figure 767007DEST_PATH_IMAGE047
对应的动作,最后采用累计更新平均值的方法更新价值函数,公式如下:
Figure 922045DEST_PATH_IMAGE049
式中:
Figure 597876DEST_PATH_IMAGE050
表示近似累积计算的次数,可视为步长,
Figure 429435DEST_PATH_IMAGE051
Figure 823507DEST_PATH_IMAGE052
表示估计回报,即带衰减的未来收益的总和;
S132.针对多人一般和随机博弈,首先初始化状态-动作价值函数表
Figure 202143DEST_PATH_IMAGE053
,在选取每个状态
Figure 998060DEST_PATH_IMAGE047
对应的动作时,多智能体根据
Figure 16832DEST_PATH_IMAGE048
贪婪法来选择
Figure 632621DEST_PATH_IMAGE047
对应的动作,最后采用纳什均衡函数更新价值函数,公式如下:
Figure 378729DEST_PATH_IMAGE054
式中:
Figure 294733DEST_PATH_IMAGE050
表示近似累积计算的次数,
Figure 484405DEST_PATH_IMAGE051
Figure 587491DEST_PATH_IMAGE055
表示多智能体的个数;
Figure 888022DEST_PATH_IMAGE056
表示衰减值;
Figure 143685DEST_PATH_IMAGE057
表示当前多智能体得到的奖励;
Figure 238680DEST_PATH_IMAGE058
表示状态
Figure 563482DEST_PATH_IMAGE047
在执行选择的动作
Figure 402125DEST_PATH_IMAGE059
后得到的新状态;
Figure 276409DEST_PATH_IMAGE060
表示从
Figure 276726DEST_PATH_IMAGE047
开始多智能体采取联合策略
Figure 354404DEST_PATH_IMAGE061
计算的长期平均回报。
进一步地,步骤S132所述一般和随机博弈中某个智能体
Figure 213382DEST_PATH_IMAGE007
的纳什均衡函数
Figure 692905DEST_PATH_IMAGE060
满足下列公式:
Figure 129702DEST_PATH_IMAGE062
式中:
Figure 694676DEST_PATH_IMAGE063
为某个智能体
Figure 389968DEST_PATH_IMAGE007
的策略集合;
Figure 989577DEST_PATH_IMAGE055
表示多智能体的个数。
进一步地,步骤S14具体为:
S141.将多目标奖励的加权和作为优化目标,计算多目标优化的加权和,公式如下:
Figure 862855DEST_PATH_IMAGE064
式中:
Figure 649545DEST_PATH_IMAGE065
表示权重向量,
Figure 118835DEST_PATH_IMAGE066
表示奖励向量,
Figure 369688DEST_PATH_IMAGE024
表示策略,
Figure 364932DEST_PATH_IMAGE067
表示加入了权重组合的期望奖励函数;
Figure 638919DEST_PATH_IMAGE068
表示在策略
Figure 161167DEST_PATH_IMAGE024
下的目标奖励加权和;
Figure 984635DEST_PATH_IMAGE032
表示多智能体选择策略
Figure 934137DEST_PATH_IMAGE024
的概率分布;
S142.根据凸优化的超平面分离定理对不同权重组合的多目标帕累托曲线进行拟合。
采用上述技术方案后,本发明具有以下积极的效果:
(1)本发明在随机博弈模型中引入时间约束,一方面可以描述多智能体之间或者多智能体与随机环境交互过程中表现出的实时性、非确定性和概率行为,另一方面可以量化与时间相关的奖励函数,并通过奖励函数确定多目标优化策略。
(2)本发明通过设计离线算法根据蒙特卡洛模拟轨迹计算预期奖励期望,避免在计算最大奖励期望时产生的状态空间***问题,并根据零和随机博弈以及一般和随机博弈收敛条件降低算法的迭代次数,从而降低了***的能耗,提高了多智能体的反应速度。
(3)本发明对多个目标赋予不同的权重,区分目标的优先级,从而提高了多智能体运行的可靠性。
附图说明
为了使本发明的内容更容易和清楚地被理解,下面根据具体实施例并结合附图,对本发明作进一步的详细说明,其中:
图1为本发明调度中心的框架图;
图2为本发明流程图;
图3为本发明中双人零和随机博弈价值函数表生成方法;
图4为本发明中多人一般和随机博弈价值函数表生成方法;
图5为本发明中帕累托曲线生成方法;
图6为本发明中基于权重组合的帕累托曲线拟合图;
图7为本实施例1中多机器人与随机环境动态博弈模型示意图;
图8为本实施例2中多机器人之间动态博弈模型示意图。
具体实施方式
如图1-5所示,一种面向时间约束的多智能体的调度方法,步骤如下:
S1.建立调度中心,具体为:
S11.基于面向时间约束的多目标随机博弈模板建立面向时间约束的多智能体与随机环境之间或多智能体之间的随机博弈模型,具体如下:
S111.面向时间约束的多目标随机博弈模板为一个十元组
Figure 960999DEST_PATH_IMAGE001
,其中:
Figure 21358DEST_PATH_IMAGE002
表示参与随机博弈的参与方多智能体和随机环境的有限集合;
Figure 715645DEST_PATH_IMAGE003
表示多智能体和随机环境的状态的有限集合;
Figure 586780DEST_PATH_IMAGE004
表示多智能体和随机环境的初始状态,
Figure 100938DEST_PATH_IMAGE005
Figure 620781DEST_PATH_IMAGE006
表示某个智能体或随机环境
Figure 169574DEST_PATH_IMAGE007
的状态的有限集合,
Figure 460878DEST_PATH_IMAGE008
Figure 462332DEST_PATH_IMAGE009
Figure 877877DEST_PATH_IMAGE010
表示多智能体的动作的有限集合;
Figure 15597DEST_PATH_IMAGE011
表示所有时钟的有限集合;
Figure 743382DEST_PATH_IMAGE012
表示时钟约束条件的集合,时钟约束条件
Figure 966553DEST_PATH_IMAGE037
由公式
Figure 437985DEST_PATH_IMAGE034
定义,式中:
Figure 945059DEST_PATH_IMAGE035
Figure 578165DEST_PATH_IMAGE011
中的一个时钟,
Figure 288632DEST_PATH_IMAGE036
是一个常数,
Figure 563756DEST_PATH_IMAGE037
Figure 895642DEST_PATH_IMAGE038
Figure 965230DEST_PATH_IMAGE039
;比如某个状态需要延迟
Figure 631834DEST_PATH_IMAGE069
,则状态
Figure 428758DEST_PATH_IMAGE003
所对应的
Figure 129998DEST_PATH_IMAGE010
则会有时间约束
Figure 104907DEST_PATH_IMAGE070
,而某个状态受到截止时间
Figure 475452DEST_PATH_IMAGE071
约束,则对应的
Figure 826799DEST_PATH_IMAGE010
存在约束
Figure 648124DEST_PATH_IMAGE072
。同时,
Figure 308782DEST_PATH_IMAGE033
也可以是不同时间约束的组合,比如
Figure 215558DEST_PATH_IMAGE073
。同时,
Figure 105016DEST_PATH_IMAGE033
也接受逻辑反操作。
Figure 328319DEST_PATH_IMAGE013
表示多智能体在状态
Figure 645030DEST_PATH_IMAGE003
上关于时钟约束的不变式条件;
Figure 255747DEST_PATH_IMAGE014
表示多智能体在状态
Figure 948896DEST_PATH_IMAGE015
上采取
Figure 744814DEST_PATH_IMAGE016
动作时的时钟约束;
Figure 481695DEST_PATH_IMAGE017
表示多智能体从
Figure 363063DEST_PATH_IMAGE015
状态经过
Figure 859904DEST_PATH_IMAGE016
的动作到
Figure 510328DEST_PATH_IMAGE018
状态的状态转移函数,
Figure 450733DEST_PATH_IMAGE019
表示
Figure 553818DEST_PATH_IMAGE003
的概率分布;
Figure 588770DEST_PATH_IMAGE020
表示多智能体的状态以及动作所对应的奖励函数,
Figure 359280DEST_PATH_IMAGE021
表示实数;
S112.建立面向时间约束的多智能体与随机环境之间或多智能体之间的多目标随机博弈模型采用
Figure 703543DEST_PATH_IMAGE022
作为多智能体在路径
Figure 293924DEST_PATH_IMAGE023
下的动作集合
Figure 132567DEST_PATH_IMAGE010
的选择策略,以
Figure 757584DEST_PATH_IMAGE024
为策略的奖励期望公式如下:
Figure 771283DEST_PATH_IMAGE025
式中:
Figure 114539DEST_PATH_IMAGE026
表示多智能体在状态
Figure 479178DEST_PATH_IMAGE027
所对应的奖励函数;
Figure 302909DEST_PATH_IMAGE028
表示多智能体在动作
Figure 739707DEST_PATH_IMAGE029
所对应的奖励函数;
Figure 39101DEST_PATH_IMAGE030
Figure 468814DEST_PATH_IMAGE031
表示多智能体的期望奖励函数;
Figure 802844DEST_PATH_IMAGE024
表示策略;
Figure 676122DEST_PATH_IMAGE032
表示多智能体选择策略
Figure 728391DEST_PATH_IMAGE024
的概率分布。
S12.根据统计模型检验模拟随机博弈模型的运行轨迹
Figure 712528DEST_PATH_IMAGE074
,设计不基于模型的值函数学习方法计算多智能体在各种状态下采取不同动作的最大奖励期望,具体如下:
S121.采集多智能体在随机环境里面所有的状态和动作的初始数据;
S122.基于采集的数据建立面向时间约束的随机博弈模型,通过UPPAAL-SMC(一种统计模型检验工具)模拟随机博弈模型的运行轨迹
Figure 648866DEST_PATH_IMAGE074
,探索多智能体在随机环境里面所有的状态和动作并训练目标策略;
S123.通过离线学习模拟运行轨迹
Figure 693046DEST_PATH_IMAGE074
建立多智能体的状态-动作价值函数表
Figure 498191DEST_PATH_IMAGE040
,价值函数表
Figure 20439DEST_PATH_IMAGE040
定义为在状态
Figure 594640DEST_PATH_IMAGE041
下采取动作
Figure 793409DEST_PATH_IMAGE042
的价值函数,其中:
Figure 85850DEST_PATH_IMAGE043
表示状态元组,
Figure 146210DEST_PATH_IMAGE044
表示动作元组,
Figure 309338DEST_PATH_IMAGE045
表示状态的不同分类集合,
Figure 960899DEST_PATH_IMAGE046
表示目前状态所属的博弈参与方。
S13.根据多智能体与随机环境之间的零和随机博弈以及多智能体之间的一般和随机博弈的收敛条件对算法进行迭代,具体如下:
S131.针对双人零和随机博弈,首先初始化状态-动作价值函数表
Figure 960210DEST_PATH_IMAGE040
,在选取每个状态
Figure 89840DEST_PATH_IMAGE047
对应的动作时,多智能体或随机环境根据
Figure 373054DEST_PATH_IMAGE048
贪婪法来选择
Figure 929937DEST_PATH_IMAGE047
对应的动作,即若
Figure 665812DEST_PATH_IMAGE047
对应的动作集合
Figure 599133DEST_PATH_IMAGE010
,则会有
Figure 986121DEST_PATH_IMAGE075
的概率选择最大化价值函数表的动作,而也有
Figure 448326DEST_PATH_IMAGE076
的概率随机选择动作;状态
Figure 937076DEST_PATH_IMAGE047
在执行选择的动作
Figure 142930DEST_PATH_IMAGE077
后会得到新的状态
Figure 882959DEST_PATH_IMAGE058
以及对应的奖励
Figure 781645DEST_PATH_IMAGE078
;假设博弈参与方分别为
Figure 757691DEST_PATH_IMAGE079
Figure 501657DEST_PATH_IMAGE047
,其状态集合分别为
Figure 879548DEST_PATH_IMAGE080
Figure 932824DEST_PATH_IMAGE081
,且模型目标为最大化参与方
Figure 396166DEST_PATH_IMAGE079
的收益。若下一步状态属于
Figure 943822DEST_PATH_IMAGE079
,则需要最大化奖励,如公式(1)所示;若当下一步的状态属于
Figure 130215DEST_PATH_IMAGE047
,则需要最小化奖励,如公式(2)所示;
Figure 134818DEST_PATH_IMAGE082
(1)
Figure 757560DEST_PATH_IMAGE083
(2)
式中:
Figure 827016DEST_PATH_IMAGE057
表示当前得到的奖励,
Figure 648342DEST_PATH_IMAGE084
表示当前最大化下一步的收益,
Figure 59732DEST_PATH_IMAGE085
表示当前最小化下一步的收益,
Figure 966508DEST_PATH_IMAGE086
表示衰减值;
最后采用累计更新平均值的方法更新价值函数,公式如下:
Figure 603769DEST_PATH_IMAGE049
式中:
Figure 545180DEST_PATH_IMAGE050
表示近似累积计算的次数,可视为步长,
Figure 127471DEST_PATH_IMAGE051
Figure 521544DEST_PATH_IMAGE052
表示估计回报,即带衰减的未来收益的总和;
S132.针对多人一般和随机博弈,首先初始化状态-动作价值函数表
Figure 463961DEST_PATH_IMAGE087
,即对一个状态,不同的智能体都会有不同的动作,每个智能体通过观测其他智能体的动作与相应的奖励值从而生成最优策略;在选取每个状态
Figure 728720DEST_PATH_IMAGE047
对应的动作时,不同的智能体根据
Figure 747491DEST_PATH_IMAGE048
贪婪法来选择
Figure 628860DEST_PATH_IMAGE047
对应的动作;状态
Figure 876433DEST_PATH_IMAGE047
在执行选择的动作
Figure 526857DEST_PATH_IMAGE088
后会得到新的状态
Figure 185371DEST_PATH_IMAGE058
以及对应的奖励
Figure 537724DEST_PATH_IMAGE078
;最后采用纳什均衡函数更新价值函数,公式如下:
Figure 838255DEST_PATH_IMAGE054
式中:
Figure 608765DEST_PATH_IMAGE050
表示近似累积计算的次数,
Figure 438181DEST_PATH_IMAGE051
Figure 294142DEST_PATH_IMAGE055
表示多智能体的个数;
Figure 146167DEST_PATH_IMAGE056
表示衰减值;
Figure 505604DEST_PATH_IMAGE057
表示当前多智能体得到的奖励;
Figure 771500DEST_PATH_IMAGE058
表示状态
Figure 114757DEST_PATH_IMAGE047
在执行选择的动作
Figure 757091DEST_PATH_IMAGE059
后得到的新状态;
Figure 485881DEST_PATH_IMAGE060
表示从状态
Figure 188258DEST_PATH_IMAGE047
开始多智能体采取联合策略
Figure 753231DEST_PATH_IMAGE061
计算的长期平均回报;
其中:
Figure 933677DEST_PATH_IMAGE060
表示从
Figure 533286DEST_PATH_IMAGE047
开始多智能体采取联合策略
Figure 891717DEST_PATH_IMAGE061
计算的长期平均回报,满足下列公式,
Figure 943986DEST_PATH_IMAGE063
为智能体
Figure 928123DEST_PATH_IMAGE007
的策略集合。
Figure 382238DEST_PATH_IMAGE062
S14.根据凸优化的超平面分离定理对不同权重组合的多目标帕累托曲线进行拟合,具体如下:
S141.将多目标奖励的加权和作为优化目标,计算多目标优化的加权和,公式如下:
Figure 410106DEST_PATH_IMAGE064
式中:
Figure 215251DEST_PATH_IMAGE065
表示权重向量,
Figure 737499DEST_PATH_IMAGE066
表示奖励向量,
Figure 311700DEST_PATH_IMAGE024
表示策略,
Figure 261201DEST_PATH_IMAGE067
表示加入了权重组合的期望奖励函数;
Figure 288063DEST_PATH_IMAGE068
表示在策略
Figure 385242DEST_PATH_IMAGE024
下的目标奖励加权和;
Figure 813950DEST_PATH_IMAGE032
表示多智能体选择策略
Figure 137615DEST_PATH_IMAGE024
的概率分布;
S142.若目标为计算最大奖励期望,计算奖励期望
Figure 901040DEST_PATH_IMAGE078
的可行域
Figure 30670DEST_PATH_IMAGE089
,其中:
Figure 48305DEST_PATH_IMAGE090
表示奖励期望,
Figure 605188DEST_PATH_IMAGE091
表示奖励期望集合,
Figure 606642DEST_PATH_IMAGE092
Figure 25116DEST_PATH_IMAGE093
表示可行域的集合,
Figure 897258DEST_PATH_IMAGE094
,即存在
Figure 890621DEST_PATH_IMAGE092
,可行域中的所有值
Figure 113792DEST_PATH_IMAGE095
都小于
Figure 585225DEST_PATH_IMAGE090
;若目标为计算最大奖励期望(比如最小化能耗情景),计算奖励期望
Figure 826719DEST_PATH_IMAGE078
的可行域
Figure 990984DEST_PATH_IMAGE089
S143.若目标为计算最大奖励期望,计算奖励期望
Figure 435872DEST_PATH_IMAGE078
的不可行域
Figure 710996DEST_PATH_IMAGE096
,其中
Figure 823308DEST_PATH_IMAGE065
表示权重向量,
Figure 375119DEST_PATH_IMAGE097
表示权重向量集合,
Figure 838461DEST_PATH_IMAGE098
Figure 386117DEST_PATH_IMAGE099
表示奖励期望向量,
Figure 618515DEST_PATH_IMAGE100
表示奖励期望向量集合,
Figure 593425DEST_PATH_IMAGE101
Figure 527752DEST_PATH_IMAGE102
Figure 144678DEST_PATH_IMAGE103
均表示向量内积,
Figure 966003DEST_PATH_IMAGE104
表示不可行域的集合,
Figure 377393DEST_PATH_IMAGE105
,即对任意权重组合的奖励期望,使得
Figure 549748DEST_PATH_IMAGE106
;若目标为计算最小奖励期望,计算奖励期望
Figure 189939DEST_PATH_IMAGE078
的不可行域
Figure 396930DEST_PATH_IMAGE096
S144.计算方差最大的权重向量
Figure 713642DEST_PATH_IMAGE065
的预期奖励期望,并计算可行域与不可行域之间的距离
Figure 107714DEST_PATH_IMAGE107
S145.若此距离大于设定的
Figure 66442DEST_PATH_IMAGE108
,则计算
Figure 111628DEST_PATH_IMAGE065
使得由
Figure 864820DEST_PATH_IMAGE065
构建的最大分隔超平面可以最大分离两个集合所在的区域,即扩大权重所对应可达集的覆盖面;根据距离函数的收敛性,可以将新生成的奖励期望
Figure 11768DEST_PATH_IMAGE090
加入奖励期望集合
Figure 243029DEST_PATH_IMAGE091
中,并不断迭代直至
Figure 159032DEST_PATH_IMAGE107
小于
Figure 830929DEST_PATH_IMAGE108
S2.调度中心采集多智能体和随机环境的状态和动作的实时数据;
S3.调度中心对采集的数据进行处理,将动作指令发送给多智能体。
拟合基于不同权重向量组合的多目标奖励加权值的帕累托曲线需要遍历权重向量组合并多次计算相应奖励期望。若有
Figure 199593DEST_PATH_IMAGE109
个目标的奖励,采用穷举搜索权重以及对应的最优奖励期望则需要在
Figure 500124DEST_PATH_IMAGE110
的时间复杂度下计算每组权重向量组合的奖励期望。由于不同权重组合所产生的可达点集会有交叉,本发明采用期望奖励的不可达点集与可达点集逼近的方法选取权重组合
Figure 5055DEST_PATH_IMAGE065
,尽可能扩大权重所对应的可达点集覆盖面,从而减少奖励期望计算数量,提高整个算法的效率。如图6所示,拟合基于权重组合的最小化双目标的帕累托曲线,首先计算
Figure 365629DEST_PATH_IMAGE111
以及
Figure 470857DEST_PATH_IMAGE112
两种极端情况下的奖励期望
Figure 309500DEST_PATH_IMAGE113
Figure 934517DEST_PATH_IMAGE114
,分别表示只考虑目标2与只考虑目标1的情况。首先根据
Figure 200413DEST_PATH_IMAGE115
生成对应的直线,
Figure 543670DEST_PATH_IMAGE116
表示奖励期望向量,这两根直线的交点与坐标轴所围成的区域是不可达集合,而两个可达点与奖励期望上限所围成的区域即是可达集合,不同权重会对应不同的可达点集以及最大分离超平面。所以可以取离原点最远的不可达点到可达区域的最大分离超平面的斜率作为权重,由奖励期望生成可达点,并形成可达点集合。如图6所示,取不可达集合离原点最远的点
Figure 936736DEST_PATH_IMAGE117
,由凸集合超平面分离定理可知,一定存在超平面可以分离
Figure 681838DEST_PATH_IMAGE117
点与可达集
Figure 118636DEST_PATH_IMAGE093
。由此通过计算最大分离超平面,求得对应的权重取值
Figure 949189DEST_PATH_IMAGE065
。通过
Figure 864055DEST_PATH_IMAGE065
计算最大奖励期望,并加入
Figure 712931DEST_PATH_IMAGE091
集合生成对应的可达集合与不可达集合。由图6可以看出可达集与不可达集的最大值在不断接近,当两者距离小于
Figure 586209DEST_PATH_IMAGE108
时,则输出对应的可达点集合,其边界点即为帕累托曲线。
实施例1
如图7所示,多机器人(机器人M、机器人N)在随机环境下完成多个作业(作业T、作业T+1、作业T+2),调度这些机器人完成作业的过程会产生相应的能耗以及时延。由于机器人在完成作业的中途可能会发生故障,且不同机器人完成不同作业的时间不同。因此,首先基于面向时间约束的多目标随机博弈模板对多机器人在随机环境下完成多个作业这个***采用面向时间约束的零和随机博弈方法进行建模,博弈方分别为多机器人和随机环境。***主要由作业模型以及多机器的调度器模型两部分组成。作业模型有三个状态,分别为空闲状态、等待状态以及执行状态,每个作业由随机环境触发从空闲状态进入等待状态,若调度器确定了执行该作业的机器人并将该作业分配给对应的机器人执行,作业即进入执行状态;若中途机器人故障不能完成作业,作业则从执行状态进入等待状态等待下一个可用的机器人,在作业执行完成之后,作业从执行状态进入空闲状态。每个机器人有三个状态,分别为空闲状态、运行状态以及故障状态。机器人在空闲状态和运行状态时,分别有概率(1-p)以及(1-q)发生故障。在空闲状态时,若调度器分配了正在等待执行的作业,则机器人进入运行状态。每个机器人只能分配在其执行范围内的作业,在运行结束后返回空闲状态。若机器人在故障状态恢复正常工作后,则返回空闲状态。其次,通过UPPAAL-SMC模拟模型的运行轨迹
Figure 638479DEST_PATH_IMAGE074
,探索在随机环境里面所有的状态和动作,然后通过采集到的数据训练目标策略,通过离线学***均值的方法更新价值函数
Figure 383111DEST_PATH_IMAGE040
。最后,将完成作业的数量、所消耗的能耗以及完成作业的时间的加权和作为优化目标,根据凸优化的超平面分离定理拟合多目标帕累托曲线,从而生成多机器人在随机环境下完成多个作业的调度策略。
实施例2
本实施例与实施例1的方法相同,针对的是多机器人协同完成标本采集以及运输任务。如图8所示,多机器人(机器人M、机器人M+1、机器人M+2、…)需要在不同的任务点(任务点1-6)采集标本或进行标本处理,然后运输到目标点(目标点1、目标点2)。当一个机器人在某一个任务点进行任务时,任务点不对其他机器人开放,且任务点之间存在先后顺序,如任务点4只对完成任务点1任务的机器人开放,任务点5只对完成任务点1或者任务点2或者任务点3的机器人开放,任务点6只对完成任务点3的机器人开放。整个***存在不确定性,包括不同机器人在不同任务点执行任务时间的不确定性以及机器人在不同任务点之间移动时间的不确定性。在执行任务和移动过程中,机器人需要避开静态障碍物以及动态障碍物,并在每台机器人用电功率不同的条件下保证总体用电量最少,最终达到目标地点。机器人在任务点执行任务有三个状态,当机器人到达任务点时首先触发等待,若任务点已经有机器人在执行任务,则该机器人等待任务点任务完成,若其他机器人完成任务后,该机器人开始执行任务。若中途任务报错,则返回等待状态继续等待执行。当机器人在该任务点完成任务后,则寻找下一任务点完成任务。为建立多目标优化的任务调度策略,即在较短的时间以及较少的能耗下完成所有标本采集、处理、传输任务的策略,首先,基于面向时间约束的多目标随机博弈模板建立面向时间约束的一般和随机博弈模型,博弈的参与方为多机器人。其次,通过UPPAAL-SMC模拟模型的运行轨迹
Figure 203431DEST_PATH_IMAGE074
,探索多机器人在随机环境里面所有的状态和动作,然后采集模拟数据训练多目标优化策略,通过离线学***面分离定理拟合多目标帕累托曲线,从而生成随机环境下多机器人协同采集样本并运输的多目标优化策略。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种面向时间约束的多智能体的调度方法,其特征在于,步骤如下:
S1.建立调度中心,具体为:
S11.基于面向时间约束的多目标随机博弈模板建立面向时间约束的多智能体与随机环境之间或多智能体之间的随机博弈模型;
S12.根据统计模型检验模拟随机博弈模型的运行轨迹,设计不基于模型的值函数学习方法计算多智能体在各种状态下采取不同动作的最大奖励期望;
S13.根据多智能体与随机环境之间的零和随机博弈以及多智能体之间的一般和随机博弈的收敛条件对算法进行迭代;
S14.根据凸优化的超平面分离定理对基于权重组合的多目标帕累托曲线进行拟合;
S2.调度中心采集多智能体和随机环境的状态和动作的实时数据;
S3.调度中心对采集的数据进行处理,将动作指令发送给多智能体。
2.根据权利要求1所述的一种面向时间约束的多智能体的调度方法,其特征在于,步骤S11具体为:
S111.面向时间约束的多目标随机博弈模板为一个十元组
Figure 699124DEST_PATH_IMAGE001
,其中:
Figure 366996DEST_PATH_IMAGE002
表示参与随机博弈的参与方多智能体和随机环境的有限集合;
Figure 818837DEST_PATH_IMAGE003
表示多智能体和随机环境的状态的有限集合;
Figure 682888DEST_PATH_IMAGE004
表示多智能体和随机环境的初始状态,
Figure 215370DEST_PATH_IMAGE005
Figure 303411DEST_PATH_IMAGE006
表示某个智能体或随机环境
Figure 39286DEST_PATH_IMAGE007
的状态的有限集合,
Figure 707028DEST_PATH_IMAGE008
Figure 795813DEST_PATH_IMAGE009
Figure 258019DEST_PATH_IMAGE010
表示多智能体的动作的有限集合;
Figure 481190DEST_PATH_IMAGE011
表示所有时钟的有限集合;
Figure 687043DEST_PATH_IMAGE012
表示时钟约束条件的集合;
Figure 928537DEST_PATH_IMAGE013
表示多智能体在状态
Figure 827223DEST_PATH_IMAGE003
上关于时钟约束的不变式条件;
Figure 537690DEST_PATH_IMAGE014
表示多智能体在状态
Figure 281655DEST_PATH_IMAGE015
上采取
Figure 144700DEST_PATH_IMAGE016
动作时的时钟约束;
Figure 745446DEST_PATH_IMAGE017
表示多智能体从
Figure 943209DEST_PATH_IMAGE015
状态经过
Figure 490865DEST_PATH_IMAGE016
的动作到
Figure 192105DEST_PATH_IMAGE018
状态的状态转移函数,
Figure 681861DEST_PATH_IMAGE019
表示
Figure 101341DEST_PATH_IMAGE003
的概率分布;
Figure 452688DEST_PATH_IMAGE020
表示多智能体的状态以及动作所对应的奖励函数,
Figure 274013DEST_PATH_IMAGE021
表示实数;
S112.建立面向时间约束的多智能体与随机环境之间或多智能体之间的多目标随机博弈模型采用
Figure 482141DEST_PATH_IMAGE022
作为多智能体在路径
Figure 136720DEST_PATH_IMAGE023
下的动作集合
Figure 760599DEST_PATH_IMAGE010
的选择策略,以
Figure 498748DEST_PATH_IMAGE024
为策略的奖励期望公式如下:
Figure 81039DEST_PATH_IMAGE025
式中:
Figure 209532DEST_PATH_IMAGE026
表示多智能体在状态
Figure 151949DEST_PATH_IMAGE027
所对应的奖励函数;
Figure 479025DEST_PATH_IMAGE028
表示多智能体在动作
Figure 232217DEST_PATH_IMAGE029
所对应的奖励函数;
Figure 848007DEST_PATH_IMAGE030
Figure 344847DEST_PATH_IMAGE031
表示多智能体的期望奖励函数;
Figure 792009DEST_PATH_IMAGE024
表示策略;
Figure 935676DEST_PATH_IMAGE032
表示多智能体选择策略
Figure 304341DEST_PATH_IMAGE024
的概率分布。
3.根据权利要求2所述的一种面向时间约束的多智能体的调度方法,其特征在于:步骤S111所述时钟约束条件的集合
Figure 136031DEST_PATH_IMAGE012
中时钟约束条件
Figure 109803DEST_PATH_IMAGE033
由如下公式归纳定义;
Figure 735956DEST_PATH_IMAGE034
式中:
Figure 841184DEST_PATH_IMAGE035
Figure 414248DEST_PATH_IMAGE011
中的一个时钟,
Figure 570423DEST_PATH_IMAGE036
是一个常数,
Figure 836319DEST_PATH_IMAGE037
Figure 648418DEST_PATH_IMAGE038
Figure 38554DEST_PATH_IMAGE039
4.根据权利要求1所述的一种面向时间约束的多智能体的调度方法,其特征在于,步骤S12具体为:
S121.采集多智能体在随机环境里面所有的状态和动作的初始数据;
S122.基于采集的数据建立面向时间约束的随机博弈模型,通过UPPAAL-SMC模拟随机博弈模型的运行轨迹,探索多智能体在随机环境里面所有的状态和动作并训练目标策略;
S123.通过离线学习模拟运行轨迹建立多智能体的状态-动作价值函数表
Figure 314815DEST_PATH_IMAGE040
,所述价值函数表
Figure 751612DEST_PATH_IMAGE040
定义为在状态
Figure 519848DEST_PATH_IMAGE041
下采取动作
Figure 497031DEST_PATH_IMAGE042
的价值函数,其中:
Figure 814749DEST_PATH_IMAGE043
表示状态元组,
Figure 422448DEST_PATH_IMAGE044
表示动作元组,
Figure 474718DEST_PATH_IMAGE045
表示状态的不同分类集合,
Figure 990013DEST_PATH_IMAGE046
表示目前状态所属的博弈参与方。
5.根据权利要求4所述的一种面向时间约束的多智能体的调度方法,其特征在于,步骤S13具体为:
S131.针对双人零和随机博弈,首先初始化状态-动作价值函数表
Figure 178549DEST_PATH_IMAGE040
,在选取每个状态
Figure 707881DEST_PATH_IMAGE047
对应的动作时,多智能体或随机环境根据
Figure 44185DEST_PATH_IMAGE048
贪婪法来选择
Figure 300853DEST_PATH_IMAGE047
对应的动作,最后采用累计更新平均值的方法更新价值函数,公式如下:
Figure 609475DEST_PATH_IMAGE049
式中:
Figure 558977DEST_PATH_IMAGE050
表示近似累积计算的次数,可视为步长,
Figure 116997DEST_PATH_IMAGE051
Figure 692204DEST_PATH_IMAGE052
表示估计回报,即带衰减的未来收益的总和;
S132.针对多人一般和随机博弈,首先初始化状态-动作价值函数表
Figure 589752DEST_PATH_IMAGE053
,在选取每个状态
Figure 710155DEST_PATH_IMAGE047
对应的动作时,多智能体根据
Figure 21051DEST_PATH_IMAGE048
贪婪法来选择
Figure 885102DEST_PATH_IMAGE047
对应的动作,最后采用纳什均衡函数更新价值函数,公式如下:
Figure 384960DEST_PATH_IMAGE054
式中:
Figure 941843DEST_PATH_IMAGE050
表示近似累积计算的次数,
Figure 474455DEST_PATH_IMAGE051
Figure 876618DEST_PATH_IMAGE055
表示多智能体的个数;
Figure 748759DEST_PATH_IMAGE056
表示衰减值;
Figure 273281DEST_PATH_IMAGE057
表示当前多智能体得到的奖励;
Figure 745720DEST_PATH_IMAGE058
表示状态
Figure 685994DEST_PATH_IMAGE047
在执行选择的动作
Figure 678221DEST_PATH_IMAGE059
后得到的新状态;
Figure 373644DEST_PATH_IMAGE060
表示从状态
Figure 818532DEST_PATH_IMAGE047
开始多智能体采取联合策略
Figure 313230DEST_PATH_IMAGE061
计算的长期平均回报。
6.根据权利要求5所述的一种面向时间约束的多智能体的调度方法,其特征在于:步骤S132所述一般和随机博弈中某个智能体
Figure 425542DEST_PATH_IMAGE007
的纳什均衡函数
Figure 26288DEST_PATH_IMAGE060
满足下列公式:
Figure 224051DEST_PATH_IMAGE062
式中:
Figure 506128DEST_PATH_IMAGE063
为某个智能体
Figure 722214DEST_PATH_IMAGE007
的策略集合;
Figure 493861DEST_PATH_IMAGE055
表示多智能体的个数。
7.根据权利要求1所述的一种面向时间约束的多智能体的调度方法,其特征在于,步骤S14具体为:
S141.将多目标奖励的加权和作为优化目标,计算多目标优化的加权和,公式如下:
Figure 913341DEST_PATH_IMAGE064
式中:
Figure 264688DEST_PATH_IMAGE065
表示权重向量,
Figure 882751DEST_PATH_IMAGE066
表示奖励向量,
Figure 294141DEST_PATH_IMAGE024
表示策略,
Figure 683141DEST_PATH_IMAGE067
表示加入了权重组合的期望奖励函数;
Figure 572599DEST_PATH_IMAGE068
表示在策略
Figure 310748DEST_PATH_IMAGE024
下的目标奖励加权和;
Figure 627460DEST_PATH_IMAGE032
表示多智能体选择策略
Figure 755953DEST_PATH_IMAGE024
的概率分布;
S142.根据凸优化的超平面分离定理对不同权重组合的多目标帕累托曲线进行拟合。
CN202110810946.4A 2021-07-19 2021-07-19 一种面向时间约束的多智能体的调度方法 Active CN113269297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110810946.4A CN113269297B (zh) 2021-07-19 2021-07-19 一种面向时间约束的多智能体的调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110810946.4A CN113269297B (zh) 2021-07-19 2021-07-19 一种面向时间约束的多智能体的调度方法

Publications (2)

Publication Number Publication Date
CN113269297A true CN113269297A (zh) 2021-08-17
CN113269297B CN113269297B (zh) 2021-11-05

Family

ID=77236924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110810946.4A Active CN113269297B (zh) 2021-07-19 2021-07-19 一种面向时间约束的多智能体的调度方法

Country Status (1)

Country Link
CN (1) CN113269297B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115473633A (zh) * 2022-08-24 2022-12-13 武汉大学 一种多方协同产生sm2数字签名的方法及装置
CN115563527A (zh) * 2022-09-27 2023-01-03 西南交通大学 一种基于状态分类与指派的多Agent深度强化学习框架及方法
CN115576278A (zh) * 2022-09-30 2023-01-06 常州大学 基于时态均衡分析的多智能体多任务分层连续控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106899026A (zh) * 2017-03-24 2017-06-27 三峡大学 基于具有时间隧道思想的多智能体强化学习的智能发电控制方法
CN107045655A (zh) * 2016-12-07 2017-08-15 三峡大学 基于多智能体随机一致博弈和虚拟发电部落的狼群部落策略方法
CN110471297A (zh) * 2019-07-30 2019-11-19 清华大学 多智能体协同控制方法、***及设备
CN110728406A (zh) * 2019-10-15 2020-01-24 南京邮电大学 基于强化学习的多智能体发电优化调度方法
CN111860649A (zh) * 2020-07-21 2020-10-30 赵佳 基于多智能体强化学习的动作集合输出方法及***
CN112132263A (zh) * 2020-09-11 2020-12-25 大连理工大学 一种基于强化学习的多智能体自主导航方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107045655A (zh) * 2016-12-07 2017-08-15 三峡大学 基于多智能体随机一致博弈和虚拟发电部落的狼群部落策略方法
CN106899026A (zh) * 2017-03-24 2017-06-27 三峡大学 基于具有时间隧道思想的多智能体强化学习的智能发电控制方法
CN110471297A (zh) * 2019-07-30 2019-11-19 清华大学 多智能体协同控制方法、***及设备
CN110728406A (zh) * 2019-10-15 2020-01-24 南京邮电大学 基于强化学习的多智能体发电优化调度方法
CN111860649A (zh) * 2020-07-21 2020-10-30 赵佳 基于多智能体强化学习的动作集合输出方法及***
CN112132263A (zh) * 2020-09-11 2020-12-25 大连理工大学 一种基于强化学习的多智能体自主导航方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIFU DING 等: "Multi-agent Deep Reinforcement Learning Algorithm for Distributed Economic Dispatch in Smart Grid", 《IECON 2020 THE 46TH ANNUAL CONFERENCE OF THE IEEE INDUSTRIAL ELECTRONICS SOCIETY》 *
李方圆: "基于多智能体协同算法的智能电网分布式调度与优化", 《中国优秀博硕士学位论文全文数据库(博士)工程科技Ⅱ辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115473633A (zh) * 2022-08-24 2022-12-13 武汉大学 一种多方协同产生sm2数字签名的方法及装置
CN115473633B (zh) * 2022-08-24 2024-05-31 武汉大学 一种多方协同产生sm2数字签名的方法及装置
CN115563527A (zh) * 2022-09-27 2023-01-03 西南交通大学 一种基于状态分类与指派的多Agent深度强化学习框架及方法
CN115563527B (zh) * 2022-09-27 2023-06-16 西南交通大学 一种基于状态分类与指派的多Agent深度强化学习***及方法
CN115576278A (zh) * 2022-09-30 2023-01-06 常州大学 基于时态均衡分析的多智能体多任务分层连续控制方法
CN115576278B (zh) * 2022-09-30 2023-08-04 常州大学 基于时态均衡分析的多智能体多任务分层连续控制方法
WO2024066675A1 (zh) * 2022-09-30 2024-04-04 常州大学 基于时态均衡分析的多智能体多任务分层连续控制方法

Also Published As

Publication number Publication date
CN113269297B (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN113269297B (zh) 一种面向时间约束的多智能体的调度方法
Cao et al. Scheduling semiconductor testing facility by using cuckoo search algorithm with reinforcement learning and surrogate modeling
Choong et al. Automatic design of hyper-heuristic based on reinforcement learning
Zhao et al. A heuristic distributed task allocation method for multivehicle multitask problems and its application to search and rescue scenario
Manathara et al. Multiple UAV coalitions for a search and prosecute mission
Sichkar Reinforcement learning algorithms in global path planning for mobile robot
CN107562066B (zh) 一种航天器多目标启发式排序任务规划方法
Yu et al. Asynchronous multi-agent reinforcement learning for efficient real-time multi-robot cooperative exploration
Schillinger et al. Auctioning over probabilistic options for temporal logic-based multi-robot cooperation under uncertainty
Könighofer et al. Online shielding for stochastic systems
Chen et al. A bi-criteria nonlinear fluctuation smoothing rule incorporating the SOM–FBPN remaining cycle time estimator for scheduling a wafer fab—a simulation study
Zaidi et al. Task allocation based on shared resource constraint for multi-robot systems in manufacturing industry
Bøgh et al. Distributed fleet management in noisy environments via model-predictive control
Gaggero et al. When time matters: Predictive mission planning in cyber-physical scenarios
Shriyam et al. Task assignment and scheduling for mobile robot teams
Yang et al. Learning graph-enhanced commander-executor for multi-agent navigation
Herrmann Metareasoning for Robots
Bahgat et al. A multi-level architecture for solving the multi-robot task allocation problem using a market-based approach
Shi et al. Efficient hierarchical policy network with fuzzy rules
Jungbluth et al. Reinforcement Learning-based Scheduling of a Job-Shop Process with Distributedly Controlled Robotic Manipulators for Transport Operations
Zhang et al. Multi-task actor-critic with knowledge transfer via a shared critic
Oliver et al. Auction and swarm multi-robot task allocation algorithms in real time scenarios
Hong et al. Deterministic policy gradient based formation control for multi-agent systems
Chandana et al. RANFIS: Rough adaptive neuro-fuzzy inference system
Kim et al. Safety-aware unsupervised skill discovery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant