CN112558470A - 一种执行器饱和多智能体***最优一致性控制方法和装置 - Google Patents

一种执行器饱和多智能体***最优一致性控制方法和装置 Download PDF

Info

Publication number
CN112558470A
CN112558470A CN202011331025.1A CN202011331025A CN112558470A CN 112558470 A CN112558470 A CN 112558470A CN 202011331025 A CN202011331025 A CN 202011331025A CN 112558470 A CN112558470 A CN 112558470A
Authority
CN
China
Prior art keywords
optimal
agent
neural network
consistency control
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011331025.1A
Other languages
English (en)
Inventor
秦家虎
李曼
马麒超
张聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202011331025.1A priority Critical patent/CN112558470A/zh
Publication of CN112558470A publication Critical patent/CN112558470A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种执行器饱和多智能体***最优一致性控制方法和装置,方案通过构建受执行器饱和限制的多智能体***;设计每个智能体***的目标函数;构建最优目标函数和最优一致性控制输入满足的HJB方程;利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计最优目标函数和最优一致性控制输入;用加载有估计所得的最优一致性控制输入的控制器实现多智能体***最优一致性控制。本方案考虑了实际工程应用中广泛存在的执行器饱和现象,以及实际***的精确的动力学模型通常难以获取的难题,通过充分利用***的输入输出信息设计控制器,能够在有执行器饱和限制的情况下实现最优一致性控制。

Description

一种执行器饱和多智能体***最优一致性控制方法和装置
技术领域
本发明涉及多智能体协同控制领域技术领域,具体涉及一种基于强化学习的执行器饱和多智能体***最优一致性控制方法和装置。
背景技术
多智能体***相较于单智能体***具有较强的鲁棒性和容错能力,并且能够完成某些单个智能体难以完成的复杂任务。受自然界生物群体行为的启发,目前对多智能体***的研究主要集中在实现分布式协同控制,其控制目标主要包括:一致性、聚集、编队等。其中,一致性问题是多智能体***分布式协同控制研究中的一类基本问题。该问题主要关注如何利用局部信息设计分布式协同控制器,使***的某一变量,如速度、位置、相位等,达到一致。当考虑个体具有自私属性,即,个体在实现一致的过程中优化自身性能指标(比如最小化能量消耗、最大化收益),最优一致性问题由此产生。
随着网络技术的迅猛发展,控制***向着网络化、智能化和综合化的方向发展,多智能体***一致性理论在工程领域的应用越来越广泛。其中,典型的应用包括水下自动机器人***、无人机***、无线传感器网络等。然而,由于实际场景中存在许多限制,比如电机的力矩及转速是有限的,阀门开关的速度及大小不能任意大等,许多理论研究中所提出的一致性算法在实际工程应用中实现取得理想的效果。因此,对于执行器饱和的多智能体***一致性控制的研究因具有实际应用意义吸引了越来越多研究学者的关注。而如何设计分布式控制器在执行器饱和限制下实现最优一致性是一个仍未被解决的问题。
发明内容
有鉴于此,本发明实施例提供一种执行器饱和多智能体***最优一致性控制方法和装置,以实现执行器饱和限制下实现最优一致性。
为实现上述目的,本发明实施例提供如下技术方案:
一种执行器饱和多智能体***最优一致性控制方法,应用于多智能体的控制***中,方法包括:
构建受执行器饱和限制的多智能体***;
设计多智能体***中每个智能体的目标函数;
构建最优目标函数和最优一致性控制输入满足的HJB方程:
Figure BDA0002795815840000021
其中,δi表示第i个智能体的局部同步误差,Q为正定矩阵,
Figure BDA0002795815840000022
为最优目标函数,
Figure BDA0002795815840000023
为最优一致性控制输入,
Figure BDA0002795815840000024
其中,
Figure BDA0002795815840000025
表示
Figure BDA0002795815840000029
对δi的偏导数,
Figure BDA0002795815840000028
为非二次输入能量成本,A,B为***矩阵di为第i个智能体的入度,eij为第i个和第j个智能体间通信边的权重,Ni为第i个智能体的邻居节点的集合;
利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入;
基于估计得到的最优一致性控制输入对多智能体***进行控制。
可选的,上述执行器饱和多智能体***最优一致性控制方法中,所述构建受执行器饱和限制的多智能体***的数学模型包括:
构建每个智能体***的动力学方程:
Figure BDA0002795815840000027
其中,i=1,...,N,i表示智能体的编号,A和B为未知的***矩阵,xi∈Rn表示第i个智能体的状态向量,Rn表示n维实空间,ui∈Ωi表示施加在第i个智能体***上的控制输入,Ωi={ui|ui∈Rp,||ui||≤λi,i=1,...,N}表示满足执行器饱和约束的控制输入的集合,||·||表示向量的无穷范数,λi>0表示预先设定的执行器饱和的界;
建立每个智能体***之间的通讯关系。
可选的,上述执行器饱和多智能体***最优一致性控制方法中,所述设计多智能体***中每个智能体的目标函数,包括:
设计一致性误差函数:
Figure BDA0002795815840000031
其中,eij表示第i个和第j个智能体间通信边的权重,Ni表示第i个智能体的邻居节点的集合;
设置一致性误差和输入能量的成本函数:
Figure BDA0002795815840000032
t0表示初始时刻,u-i={uj|j∈Ni}表示智能体i的邻居节点的控制输入的集合,Q>0为正定矩阵,Yi(ui)表示非二次输入能量成本,定义为:
Figure BDA0002795815840000033
其中,tanh(·)表示双曲正切函数,Ri为正定对角矩阵;
将智能体i的值函数定义为:
Figure BDA0002795815840000034
可选的,上述执行器饱和多智能体***最优一致性控制方法中,所述利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入,包括:
构建用于迭代计算的离策略贝尔曼方程;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
构建基于离策略贝尔曼方程的逼近误差;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
利用最小二乘法最小化所述逼近误差,得到神经网络权重的更新率。
可选的,上述执行器饱和多智能体***最优一致性控制方法中,所述离策略贝尔曼方程具体为:
Figure BDA0002795815840000041
其中,t′=t+Δt,上标(s)表示相应的变量在第s步迭代得到的值,ui表示实际施加在多智能体***上用于产生数据的控制策略,
Figure BDA00027958158400000411
为目标策略,表示用于更新的策略,
Figure BDA00027958158400000412
表示第i个智能体的入度;
所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;构建基于离策略贝尔曼方程的逼近误差;分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入,包括:
所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入:
Figure BDA0002795815840000042
Figure BDA0002795815840000043
其中,
Figure BDA0002795815840000044
Figure BDA0002795815840000045
表示神经网络逼近的值函数和一致性控制输入,
Figure BDA0002795815840000046
Figure BDA0002795815840000047
表示相应的神经网络的激活函数向量,hv
Figure BDA00027958158400000413
为相应的神经网络隐含层神经元的数量,Wvi
Figure BDA00027958158400000414
表示常权重矩阵,
Figure BDA0002795815840000048
将所述
Figure BDA0002795815840000049
Figure BDA00027958158400000410
代入所述离策略贝尔曼方程得到基于离策略贝尔曼方程的逼近误差。
一种执行器饱和多智能体***最优一致性控制装置,应用于多智能体的控制***中,装置包括:
***构建单元,构建受执行器饱和限制的多智能体***;
目标函数构建单元,设计多智能体***中每个智能体的目标函数;
最优解方程构建单元,用于构建HJB方程:
Figure BDA0002795815840000051
其中,δi表示第i个智能体的局部同步误差,Q为正定矩阵,
Figure BDA0002795815840000055
为最优目标函数,
Figure BDA0002795815840000056
为最优一致性控制输入,
Figure BDA0002795815840000052
其中,
Figure BDA0002795815840000053
Figure BDA0002795815840000054
表示
Figure BDA0002795815840000057
对δi的偏导数,
Figure BDA0002795815840000058
为非二次输入能量成本,A,B为***矩阵,di为第i个智能体的入度,eij为第i个和第j个智能体间通信边的权重,Ni为第i个智能体的邻居节点的集合;
估计与控制单元,用于利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入;基于估计得到的最优一致性控制输入对多智能体***进行控制。
可选的,上述执行器饱和多智能体***最优一致性控制装置中,所述构建受执行器饱和限制的多智能体***的数学模型包括:
构建每个智能体***的动力学方程:
Figure BDA0002795815840000059
其中,i=1,...,N,i表示智能体的编号,A和B为未知的***矩阵,xi∈Rn表示第i个智能体的状态向量,Rn表示n维实空间,ui∈Ωi表示施加在第i个智能体***上的控制输入,Ωi={ui|ui∈Rp,||ui||≤λi,i=1,...,N}表示满足执行器饱和约束的控制输入的集合,||·||表示向量的无穷范数,λi>0表示预先设定的执行器饱和的界;
建立每个智能体***之间的通讯关系。
可选的,上述执行器饱和多智能体***最优一致性控制装置中,所述设计多智能体***中每个智能体的目标函数,包括:
设计一致性误差函数:
Figure BDA0002795815840000061
其中,eij表示第i个和第j个智能体间通信边的权重,Ni表示第i个智能体的邻居节点的集合;
设置一致性误差和输入能量的成本函数:
Figure BDA0002795815840000062
t0表示初始时刻,u-i={uj|j∈Ni}表示智能体i的邻居节点的控制输入的集合,Q>0为正定矩阵,Yi(ui)表示非二次输入能量成本,定义为:
Figure BDA0002795815840000063
其中,tanh(·)表示双曲正切函数,Ri为正定对角矩阵;
将智能体i的值函数定义为:
Figure BDA0002795815840000064
可选的,上述执行器饱和多智能体***最优一致性控制装置中,所述利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入,包括:
构建用于迭代计算的离策略贝尔曼方程;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
构建基于离策略贝尔曼方程的逼近误差;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
利用最小二乘法最小化所述逼近误差,得到神经网络权重的更新率。
可选的,上述执行器饱和多智能体***最优一致性控制装置中,所述离策略贝尔曼方程具体为:
Figure BDA0002795815840000071
其中,t′=t+Δt,上标(s)表示相应的变量在第s步迭代得到的值,ui表示实际施加在多智能体***上用于产生数据的控制策略,
Figure BDA0002795815840000075
为目标策略,表示用于更新的策略,
Figure BDA0002795815840000076
表示第i个智能体的入度;
所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;构建基于离策略贝尔曼方程的逼近误差;分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入,包括:
所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入:
Figure BDA0002795815840000072
Figure BDA0002795815840000073
其中,
Figure BDA0002795815840000077
Figure BDA0002795815840000078
表示神经网络逼近的值函数和一致性控制输入,
Figure BDA0002795815840000079
Figure BDA00027958158400000710
表示相应的神经网络的激活函数向量,hv
Figure BDA00027958158400000711
为相应的神经网络隐含层神经元的数量,Wvi
Figure BDA00027958158400000712
表示常权重矩阵,
Figure BDA0002795815840000074
将所述
Figure BDA00027958158400000713
Figure BDA00027958158400000714
代入所述离策略贝尔曼方程得到基于离策略贝尔曼方程的逼近误差。
基于上述技术方案,本发明实施例提供的上述方案,通过构建受执行器饱和限制的多智能体***;设计每个智能体***的目标函数;构建最优目标函数和最优一致性控制输入满足的HJB方程;利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计最优目标函数和最优一致性控制输入;用加载有估计所得的最优一致性控制输入的控制器实现多智能体***最优一致性控制。本方案考虑了实际工程应用中广泛存在的执行器饱和现象,以及实际***的精确的动力学模型通常难以获取的难题,通过充分利用***的输入输出信息设计控制器,能够在有执行器饱和限制的情况下实现最优一致性控制。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种执行器饱和多智能体***最优一致性控制方法的流程示意图;
图2为本公开实施例多机器人***通信拓扑示意图;
图3为本公开实施例多机器人***状态演化示意图;
图4是本公开实施例多机器人***控制策略演化示意图;
图5为本申请实施例公开的一种执行器饱和多智能体***最优一致性控制装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,传统的一致性控制器设计方法严重依赖于完整的***动力学信息,而精确的***动力学信息通常难以获取。如何充分利用***与环境的交互,设计不依赖于***动力学信息的一致性控制器是一个亟需解决的问题。近年来,基于强化学习的控制方法因其能够实现不基于模型信息的控制而受到越来越多的关注。因此,基于强化学习的多智能体***协同控制方法是控制领域的发展的重要趋势。
一种执行器饱和多智能体***最优一致性控制方法,其特征在于,应用于多智能体的控制***中,方法包括:
步骤S101:构建受执行器饱和限制的多智能体***;
本步骤中,所述构建受执行器饱和限制的多智能体***主要由步骤A.1和步骤A.2构成。
步骤A.1:构建受执行器饱和限制的多智能体***的数学模型;
步骤A.2:建模每个智能体***之间的通讯关系。
在本申请公开实例中,所谓的多智能体***是指数量不少于2个的智能体的***,并且,地面移动机器人、水下自动机器人、无人机、传感器、电力单元等均可看作为智能体。
步骤A.1中,所述多智能体***中包含N个个体,N≥2,每个智能体的一般线性动力学方程描述为:
Figure BDA0002795815840000091
其中,i=1,...,N,i表示智能体的编号,A为n×n维***矩阵,B为n×p维***矩阵,且(A,B)是能稳定的,xi∈Rn表示第i个智能体的状态向量,Rn表示n维实空间,
Figure BDA0002795815840000093
表示施加在第i个智能体***上的控制输入,
Figure BDA0002795815840000092
表示满足执行器饱和约束的控制输入的集合,||·||表示向量的无穷范数,λi>0表示预先设定的执行器饱和的界。
在步骤A.2中,将每个智能体看作一个节点,如果智能体***j能够收到来自智能体***i的信息,则存在一条从节点i(智能体***i对应的节点)指向节点j(智能体***j对应的节点)的边,并用eij表示该边的权重。用图G=(V,ε,E)表示多智能体***的通讯拓扑,其中,V={1,…,N}表示节点(智能体对应的节点)的集合,ε表示通信边的集合,E=[eij]表示权重矩阵。Ni={j∈V:(j,i)∈ε}表示节点i的邻居节点的集合。要求图G中包含一个有向生成树,即,存在至少一个节点存在到达其他所有节点的有向路径。
步骤S102:设计多智能体***中每个智能体的目标函数;
具体的,本步骤可以包括:
步骤B.1:构造局部一致性误差;
在本方案中,将局部一致性误差定义为个体与其邻居节点的状态之差的加权和,数学表示为:
Figure BDA0002795815840000101
将一致性误差的动力学表示为:
Figure BDA0002795815840000102
其中,
Figure BDA0002795815840000106
表示节点i的入度。
步骤B.2:设计关于一致性误差和输入能量的成本函数;
智能体***i的成本函数设计为:
Figure BDA0002795815840000103
其中,t0表示初始时刻,u-i={uj|j∈Ni}表示智能体i的邻居节点的控制输入的集合,Q>0为正定矩阵,Yi(ui)表示非二次输入能量成本,定义为:
Figure BDA0002795815840000104
其中,tanh(·)表示双曲正切函数,Ri为正定对角矩阵,其对角线元素为ri1,…,rip
步骤B.3:给出智能体***的最优目标函数;
在本方案中,所述智能体i的目标函数定义为:
Figure BDA0002795815840000105
步骤S103:构建最优目标函数和最优一致性控制输入满足的HJB方程:
Figure BDA0002795815840000111
其中,所述
Figure BDA0002795815840000118
为最优目标函数,
Figure BDA0002795815840000117
为最优一致性控制输入,所述
Figure BDA0002795815840000119
其中,
Figure BDA0002795815840000112
表示
Figure BDA00027958158400001110
对δi的偏导数;
在本步骤中,基于所述最优目标函数以及所述最优一致性控制输入构建上述HJB方程;
步骤S104:利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入;
具体的,本步骤具体包括:
步骤D.1:构建用于迭代计算的离策略贝尔曼方程;其所述离策略贝尔曼方程的形式为:
Figure BDA0002795815840000114
其中,t′=t+Δt,上标(s)表示相应的变量在第s步迭代得到的值,ui为行为策略,表示实际施加在***上用于产生数据的控制策略,
Figure BDA00027958158400001111
为目标策略,表示用于更新的策略。
步骤D.2:分别用critic神经网络和actor神经网络逼近最优目标函数和最优一致性控制输入,构建基于离策略贝尔曼方程的逼近误差;
其中:
Figure BDA0002795815840000115
Figure BDA0002795815840000116
Figure BDA0002795815840000121
其中,
Figure BDA0002795815840000128
Figure BDA0002795815840000129
表示神经网络逼近的最优目标函数和最优一致性控制输入,
Figure BDA00027958158400001210
Figure BDA00027958158400001211
分别表示critic神经网络和actor神经网络的激活函数向量,hv
Figure BDA00027958158400001212
分别为critic神经网络和actor神经网络隐含层神经元的数量,Wvi
Figure BDA00027958158400001213
表示critic神经网络和actor神经网络常权重矩阵。
Figure BDA00027958158400001214
Figure BDA00027958158400001215
带入步骤D.1得到的离策略贝尔曼方程中,可得如下逼近误差:
Figure BDA0002795815840000122
其中,
Figure BDA0002795815840000123
Figure BDA0002795815840000124
Figure BDA0002795815840000125
ρΔφi(t),δi(t′))=φii(t))-φii(t′))
Figure BDA0002795815840000126
Figure BDA0002795815840000127
Figure BDA0002795815840000131
u(t)={ui(t),i=1,…,N}
上述逼近误差可以等价地写作:
Figure BDA0002795815840000132
其中,
Figure BDA0002795815840000133
Figure BDA0002795815840000134
Figure BDA0002795815840000135
Figure BDA0002795815840000136
步骤D.3:利用最小二乘法最小化步骤D.2中的逼近误差,得到神经网络权重的更新率;包括:
本步骤包括:
步骤D.3.1:在有限时间区间内收集一组输入输出数据;
在本公开实例中,步骤D.3.1中,将探测噪声ei(t)施加在第i个智能体***上,即ui(t)=ei(t)。探测噪声可以为随机噪声、指数衰减的正弦信号等,能够保证智能体***被持续激励即可。将智能体***运行一段时间,采样M组智能体***数据
Figure BDA0002795815840000137
其中上标k表示第k组数据,Δt表示采样时间间隔。计算可得M组一致性误差与智能体***输入的数据
Figure BDA0002795815840000141
步骤D.3.2:相关参数计算;
对每一组数据(一致性误差与智能体***输入的数据)计算相应的
Figure BDA0002795815840000142
Figure BDA0002795815840000143
其中,上标k表示使用第k组数据计算得到的值:
更新神经网络权重,直至权重收敛;
采用如下更新率更新神经网络权重:
Figure BDA0002795815840000144
其中,
Figure BDA0002795815840000145
Figure BDA0002795815840000146
直至
Figure BDA0002795815840000147
其中,ε表示给定的计算精度。
步骤S105:基于估计的最优一致性控制输入对多智能体***进行控制。
在本步骤中,用步骤104所确定的控制器实现多智能体***最优一致性控制;当利用步骤104所确定的控制器
Figure BDA0002795815840000148
对所述多智能体***进行控制时,满足下列条件:
Figure BDA0002795815840000149
对于任意的p,q∈V成立,且对于给定的优化误差∈,在t→∞时
Figure BDA00027958158400001410
成立,则所述多智能体***实现最优一致性控制,其中||·||2表示向量的2范数。
下面通过一个具体实施例对本申请公开的技术方案进一步说明:
假设由3个地面移动机器人组成多机器人***(多智能体***),每个地面移动机器人具有二阶动力学,其数学形式为:
Figure BDA0002795815840000151
其中,i=1,2,3,si∈R表示第i个机器人的位置,vi∈R表示第i个机器人的速度,ui∈R表示第i个机器人的控制输入。执行器饱和约束为λi=15,即|ui|≤λi。将机器人的位置和速度选为状态变量,即,
Figure BDA00027958158400001510
则上述二阶动力学***可以写成一般线性***的形式:
Figure BDA0002795815840000152
其中,
Figure BDA0002795815840000153
三个机器人之间的通信拓扑如图2所示,图2中有向边上的数字(例如,图中的0.1)表示边的权重。
按照如步骤B.1所示方式给出局部一致性误差,并设计如步骤B.2所示成本函数,其中
Figure BDA0002795815840000154
R1=R2=R3=30。
Critic神经网络和actor神经网络的激活函数分别选择为:
Figure BDA0002795815840000155
Figure BDA0002795815840000156
其中,δij表示一致性误差向量δi第j维的值。
施加在多机器人***上的探测噪声为:
Figure BDA0002795815840000157
其中,
Figure BDA0002795815840000158
在[-800,800]上随机分布。将***运行3秒,且每隔0.01秒采集一组数据
Figure BDA0002795815840000159
则共有M=301组数据。
利用收集的数据进行,迭代的更新神经网络权重,并将估计的最优控制策略
Figure BDA00027958158400001511
施加在多机器人***上,多机器人***的状态及控制策略演化如图3和图4所示。可以看出,所述多智能体***的状态一致,且控制输入满足执行器饱和约束。
综上所述,本申请实施例提供的技术方案,通过构建受执行器饱和限制的多智能体***;设计每个智能体***的目标函数;构建最优目标函数和最优一致性控制输入满足的HJB方程;利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计最优目标函数和最优一致性控制输入;用加载有估计所得的最优一致性控制输入的控制器实现多智能体***最优一致性控制。本方案考虑了实际工程应用中广泛存在的执行器饱和现象,以及实际***的精确的动力学模型通常难以获取的难题,通过充分利用***的输入输出信息设计控制器,能够在有执行器饱和限制的情况下实现最优一致性控制。此外,与一般的一致性控制方法相比,本发明不仅考虑了群体之间的协作,而且考虑了个体的自私属性,能够在优化个体利益的同时实现一致性控制。
本实施例中公开了一种执行器饱和多智能体***最优一致性控制装置,装置中的各个单元的具体工作内容,请参见上述方法实施例的内容,下面对本发明实施例提供的执行器饱和多智能体***控制装置进行描述,下文描述的执行器饱和多智能体***控制装置与上文描述的执行器饱和多智能体***控制方法可相互对应参照。
参见图5,该装置可以包括:
***构建单元100,构建受执行器饱和限制的多智能体***;
目标函数构建单元200,设计多智能体***中每个智能体的目标函数;
最优解方程构建单元300,用于构建最优目标函数和最优一致性控制输入满足的HJB方程:
Figure BDA0002795815840000161
其中,δi表示第i个智能体的局部同步误差,Q为正定矩阵,
Figure BDA0002795815840000162
为最优目标函数,
Figure BDA0002795815840000163
为最优一致性控制输入,
Figure BDA0002795815840000171
其中,
Figure BDA0002795815840000172
表示
Figure BDA0002795815840000176
对δi的偏导数,
Figure BDA0002795815840000177
为非二次输入能量成本,A,B为***矩阵,di为第i个智能体的入度,eij为第i个和第j个智能体间通信边的权重,Ni为第i个智能体的邻居节点的集合;
估计与控制单元400,用于利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入;基于估计得到的最优一致性控制输入对多智能体***进行控制。
与上述方法相对应,所述构建受执行器饱和限制的多智能体***的数学模型包括:
构建每个智能体***的动力学方程:
Figure BDA0002795815840000178
其中,i=1,...,N,i表示智能体的编号,A和B为未知的***矩阵,xi∈Rn表示第i个智能体的状态向量,Rn表示n维实空间,ui∈Ωi表示施加在第i个智能体***上的控制输入,Ωi={ui|ui∈Rp,||ui||≤λi,i=1,...,N}表示满足执行器饱和约束的控制输入的集合,||·||表示向量的无穷范数,λi>0表示预先设定的执行器饱和的界。
建立每个智能体***之间的通讯关系。
与上述方法相对应,所述设计多智能体***中每个智能体的目标函数,包括:
设计一致性误差函数:
Figure BDA0002795815840000174
其中,eij表示第i个和第j个智能体间通信边的权重,Ni表示第i个智能体的邻居节点的集合;
设置一致性误差和输入能量的成本函数:
Figure BDA0002795815840000175
t0表示初始时刻,u-i={uj|j∈Ni}表示智能体i的邻居节点的控制输入的集合,Q>0为正定矩阵,Yi(ui)表示非二次输入能量成本,定义为:
Figure BDA0002795815840000181
其中,tanh(·)表示双曲正切函数,Ri为正定对角矩阵;
将智能体i的值函数定义为:
Figure BDA0002795815840000182
与上述方法相对应,所述利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入,包括:
构建用于迭代计算的离策略贝尔曼方程;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
构建基于离策略贝尔曼方程的逼近误差;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
利用最小二乘法最小化所述逼近误差,得到神经网络权重的更新率。
与上述方法相对应,所述离策略贝尔曼方程具体为:
Figure BDA0002795815840000183
其中,t′=t+Δt,上标(s)表示相应的变量在第s步迭代得到的值,ui表示实际施加在多智能体***上用于产生数据的控制策略,
Figure BDA0002795815840000185
为目标策略,表示用于更新的策略,
Figure BDA0002795815840000184
表示第i个智能体的入度;
所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;构建基于离策略贝尔曼方程的逼近误差;分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入,包括:
所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入:
Figure BDA0002795815840000191
Figure BDA0002795815840000192
其中,
Figure BDA0002795815840000194
Figure BDA0002795815840000195
表示神经网络逼近的值函数和一致性控制输入,
Figure BDA0002795815840000198
Figure BDA0002795815840000196
表示相应的神经网络的激活函数向量,hv
Figure BDA0002795815840000197
为相应的神经网络隐含层神经元的数量,Wvi
Figure BDA0002795815840000199
表示常权重矩阵,
Figure BDA0002795815840000193
将所述
Figure BDA00027958158400001910
Figure BDA00027958158400001911
代入所述离策略贝尔曼方程得到基于离策略贝尔曼方程的逼近误差。
为了描述的方便,描述以上***时以功能分为各种模块分别描述。当然,在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种执行器饱和多智能体***最优一致性控制方法,其特征在于,应用于多智能体的控制***中,方法包括:
构建受执行器饱和限制的多智能体***;
设计多智能体***中每个智能体的目标函数;
构建最优目标函数和最优一致性控制输入满足的HJB方程:
Figure FDA0002795815830000011
其中,δi表示第i个智能体的局部同步误差,Q为正定矩阵,
Figure FDA0002795815830000012
为最优目标函数,
Figure FDA0002795815830000013
为最优一致性控制输入,
Figure FDA0002795815830000014
其中,
Figure FDA0002795815830000015
表示
Figure FDA0002795815830000016
对δi的偏导数,
Figure FDA0002795815830000017
为非二次输入能量成本,A,B为***矩阵,di为第i个智能体的入度,eij为第i个和第j个智能体间通信边的权重,Ni为第i个智能体的邻居节点的集合;
利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入;
用加载有估计所得的最优一致性控制输入的控制器实现多智能体***最优一致性控制。
2.根据权利要求1所述的执行器饱和多智能体***最优一致性控制方法,其特征在于,所述构建受执行器饱和限制的多智能体***的数学模型包括:
构建每个智能体***的动力学方程:
Figure FDA0002795815830000018
其中,i=1,...,N,i表示智能体的编号,A和B为未知的***矩阵,xi∈Rn表示第i个智能体的状态向量,Rn表示n维实空间,ui∈Ωi表示施加在第i个智能体***上的控制输入,Ωi={ui|ui∈Rp,||ui||≤λi,i=1,...,N}表示满足执行器饱和约束的控制输入的集合,||·||表示向量的无穷范数,λi>0表示预先设定的执行器饱和的界;
建立每个智能体***之间的通讯关系。
3.根据权利要求1所述的执行器饱和多智能体***最优一致性控制方法,其特征在于,所述设计多智能体***中每个智能体的目标函数,包括:
设计一致性误差函数:
Figure FDA0002795815830000021
其中,eij表示第i个和第j个智能体间通信边的权重,Ni表示第i个智能体的邻居节点的集合;
设置一致性误差和输入能量的成本函数:
Figure FDA0002795815830000022
t0表示初始时刻,u-i={uj|j∈Ni}表示智能体i的邻居节点的控制输入的集合,Q>0为正定矩阵,Yi(ui)表示非二次输入能量成本,定义为:
Figure FDA0002795815830000023
其中,tanh(·)表示双曲正切函数,Ri为正定对角矩阵;
将智能体i的值函数定义为:
Figure FDA0002795815830000024
4.根据权利要求1所述的执行器饱和多智能体***最优一致性控制方法,其特征在于,所述利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入,包括:
构建用于迭代计算的离策略贝尔曼方程;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
构建基于离策略贝尔曼方程的逼近误差;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
利用最小二乘法最小化所述逼近误差,得到神经网络权重的更新率。
5.根据权利要求4所述的执行器饱和多智能体***最优一致性控制方法,其特征在于,所述离策略贝尔曼方程具体为:
Figure FDA0002795815830000031
其中,t′=t+Δt,上标(s)表示相应的变量在第s步迭代得到的值,ui表示实际施加在多智能体***上用于产生数据的控制策略,
Figure FDA0002795815830000032
为目标策略,表示用于更新的策略,
Figure FDA0002795815830000033
表示第i个智能体的入度;
所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;构建基于离策略贝尔曼方程的逼近误差;分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入,包括:
所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入:
Figure FDA0002795815830000034
Figure FDA0002795815830000035
其中,
Figure FDA0002795815830000036
Figure FDA0002795815830000037
表示神经网络逼近的值函数和一致性控制输入,
Figure FDA0002795815830000038
Figure FDA0002795815830000039
表示相应的神经网络的激活函数向量,hv
Figure FDA00027958158300000310
为相应的神经网络隐含层神经元的数量,Wvi
Figure FDA00027958158300000311
表示常权重矩阵,
Figure FDA00027958158300000312
将所述
Figure FDA00027958158300000313
Figure FDA00027958158300000314
代入所述离策略贝尔曼方程得到基于离策略贝尔曼方程的逼近误差。
6.一种执行器饱和多智能体***最优一致性控制装置,其特征在于,应用于多智能体的控制***中,装置包括:
***构建单元,构建受执行器饱和限制的多智能体***;
目标函数构建单元,设计多智能体***中每个智能体的目标函数;
最优解方程构建单元,用于构建最优目标函数和最优一致性控制输入满足的HJB方程:
Figure FDA0002795815830000041
其中,δi表示第i个智能体的局部同步误差,Q为正定矩阵,
Figure FDA0002795815830000042
为最优目标函数,
Figure FDA0002795815830000043
为最优一致性控制输入,
Figure FDA0002795815830000044
其中,
Figure FDA0002795815830000045
表示
Figure FDA0002795815830000046
对δi的偏导数,
Figure FDA0002795815830000047
为非二次输入能量成本,A,B为***矩阵,di为第i个智能体的入度,eij为第i个和第j个智能体间通信边的权重,Ni为第i个智能体的邻居节点的集合;
估计与控制单元,用于利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入;基于估计得到的最优一致性控制输入对多智能体***进行控制。
7.根据权利要求6所述的执行器饱和多智能体***最优一致性控制装置,其特征在于,所述构建受执行器饱和限制的多智能体***的数学模型包括:
构建每个智能体***的动力学方程:
Figure FDA0002795815830000048
其中,i=1,…,N,i表示智能体的编号,A和B为未知的***矩阵,xi∈Rn表示第i个智能体的状态向量,Rn表示n维实空间,ui∈Ωi表示施加在第i个智能体***上的控制输入,Ωi={ui|ui∈Rp,||ui||≤λi,i=1,...,N}表示满足执行器饱和约束的控制输入的集合,||·||表示向量的无穷范数,λi>0表示预先设定的执行器饱和的界;
建立每个智能体***之间的通讯关系。
8.根据权利要求6所述的执行器饱和多智能体***最优一致性控制装置,其特征在于,所述设计多智能体***中每个智能体的目标函数,包括:
设计一致性误差函数:
Figure FDA0002795815830000049
其中,eij表示第i个和第j个智能体间通信边的权重,Ni表示第i个智能体的邻居节点的集合;
设置一致性误差和输入能量的成本函数:
Figure FDA0002795815830000051
t0表示初始时刻,u-i={uj|j∈Ni}表示智能体i的邻居节点的控制输入的集合,Q>0为正定矩阵,Yi(ui)表示非二次输入能量成本,定义为:
Figure FDA0002795815830000052
其中,tanh(·)表示双曲正切函数,Ri为正定对角矩阵;
将智能体i的值函数定义为:
Figure FDA0002795815830000053
9.根据权利要求6所述的执行器饱和多智能体***最优一致性控制装置,其特征在于,所述利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入,包括:
构建用于迭代计算的离策略贝尔曼方程;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
构建基于离策略贝尔曼方程的逼近误差;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
利用最小二乘法最小化所述逼近误差,得到神经网络权重的更新率。
10.根据权利要求9所述的执行器饱和多智能体***最优一致性控制装置,其特征在于,所述离策略贝尔曼方程具体为:
Figure FDA0002795815830000061
其中,t′=t+Δt,上标(s)表示相应的变量在第s步迭代得到的值,ui表示实际施加在多智能体***上用于产生数据的控制策略,
Figure FDA0002795815830000062
为目标策略,表示用于更新的策略,
Figure FDA0002795815830000063
表示第i个智能体的入度;
所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;构建基于离策略贝尔曼方程的逼近误差;分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入,包括:
所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入:
Figure FDA0002795815830000064
Figure FDA0002795815830000065
其中,
Figure FDA0002795815830000066
Figure FDA0002795815830000067
表示神经网络逼近的值函数和一致性控制输入,
Figure FDA0002795815830000068
Figure FDA0002795815830000069
表示相应的神经网络的激活函数向量,hv
Figure FDA00027958158300000610
为相应的神经网络隐含层神经元的数量,Wvi
Figure FDA00027958158300000611
表示常权重矩阵,
Figure FDA00027958158300000612
将所述
Figure FDA00027958158300000613
Figure FDA00027958158300000614
代入所述离策略贝尔曼方程得到基于离策略贝尔曼方程的逼近误差。
CN202011331025.1A 2020-11-24 2020-11-24 一种执行器饱和多智能体***最优一致性控制方法和装置 Pending CN112558470A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011331025.1A CN112558470A (zh) 2020-11-24 2020-11-24 一种执行器饱和多智能体***最优一致性控制方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011331025.1A CN112558470A (zh) 2020-11-24 2020-11-24 一种执行器饱和多智能体***最优一致性控制方法和装置

Publications (1)

Publication Number Publication Date
CN112558470A true CN112558470A (zh) 2021-03-26

Family

ID=75043399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011331025.1A Pending CN112558470A (zh) 2020-11-24 2020-11-24 一种执行器饱和多智能体***最优一致性控制方法和装置

Country Status (1)

Country Link
CN (1) CN112558470A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113093555A (zh) * 2021-04-14 2021-07-09 江南大学 一种多智能体全局一致性控制方法及***
CN113110340A (zh) * 2021-04-21 2021-07-13 江南大学 非连续多智能体***的分布式非平滑饱和一致性控制方法
CN113359476A (zh) * 2021-07-09 2021-09-07 广东华中科技大学工业技术研究院 离散时间下多智能体***的一致性控制算法设计方法
CN113485101A (zh) * 2021-06-10 2021-10-08 杭州电子科技大学 一种执行器饱和多智能体***增益调度控制方法
CN113985924A (zh) * 2021-12-27 2022-01-28 中国科学院自动化研究所 飞行器控制方法、装置、设备及计算机程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104570740A (zh) * 2015-01-21 2015-04-29 江南大学 一种输入饱和机械臂***的周期自适应学习控制方法
CN106054594A (zh) * 2016-06-12 2016-10-26 金陵科技学院 基于控制输入饱和的无模型自适应控制方法
US20170146971A1 (en) * 2015-11-19 2017-05-25 Omron Corporation Control device, control method, information processing program, and recording medium
CN109683477A (zh) * 2018-12-12 2019-04-26 中国地质大学(武汉) 一种随机多智能体***有限时间控制器的设计方法及***
CN111679585A (zh) * 2020-07-03 2020-09-18 大连海事大学 一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104570740A (zh) * 2015-01-21 2015-04-29 江南大学 一种输入饱和机械臂***的周期自适应学习控制方法
US20170146971A1 (en) * 2015-11-19 2017-05-25 Omron Corporation Control device, control method, information processing program, and recording medium
CN106054594A (zh) * 2016-06-12 2016-10-26 金陵科技学院 基于控制输入饱和的无模型自适应控制方法
CN109683477A (zh) * 2018-12-12 2019-04-26 中国地质大学(武汉) 一种随机多智能体***有限时间控制器的设计方法及***
CN111679585A (zh) * 2020-07-03 2020-09-18 大连海事大学 一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAHU QIN等: "Optimal Synchronization Control of Multiagent", 《 IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS ( VOLUME: 30, ISSUE: 1, JAN. 2019)》 *
赵肇雄: "《大学物理学》", 31 January 2014, 武汉大学出版社 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113093555A (zh) * 2021-04-14 2021-07-09 江南大学 一种多智能体全局一致性控制方法及***
CN113110340A (zh) * 2021-04-21 2021-07-13 江南大学 非连续多智能体***的分布式非平滑饱和一致性控制方法
CN113485101A (zh) * 2021-06-10 2021-10-08 杭州电子科技大学 一种执行器饱和多智能体***增益调度控制方法
CN113359476A (zh) * 2021-07-09 2021-09-07 广东华中科技大学工业技术研究院 离散时间下多智能体***的一致性控制算法设计方法
CN113985924A (zh) * 2021-12-27 2022-01-28 中国科学院自动化研究所 飞行器控制方法、装置、设备及计算机程序产品
CN113985924B (zh) * 2021-12-27 2022-04-08 中国科学院自动化研究所 飞行器控制方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN112558470A (zh) 一种执行器饱和多智能体***最优一致性控制方法和装置
CN108803349B (zh) 非线性多智能体***的最优一致性控制方法及***
Enthrakandi Narasimhan et al. Implementation and study of a novel approach to control adaptive cooperative robot using fuzzy rules
Ge et al. Adaptive neural control of uncertain MIMO nonlinear systems
Howell et al. Continuous action reinforcement learning automata and their application to adaptive digital filter design
Lu et al. On robust control of uncertain chaotic systems: a sliding-mode synthesis via chaotic optimization
CN112180730B (zh) 一种多智能体***分层最优一致性控制方法和装置
Zhang et al. Recurrent neural network‐based model predictive control for multiple unmanned quadrotor formation flight
Peng et al. Distributed robust state and output feedback controller designs for rendezvous of networked autonomous surface vehicles using neural networks
Liu et al. General type-2 fuzzy sliding mode control for motion balance adjusting of power-line inspection robot
CN117055605A (zh) 多无人机姿态控制方法及***
Cui et al. Adaptive consensus tracking control of strict-feedback nonlinear multi-agent systems with unknown dynamic leader
Yen et al. Design of a robust neural network-based tracking controller for a class of electrically driven nonholonomic mechanical systems
Oliveira et al. An introduction to models based on Laguerre, Kautz and other related orthonormal functions–Part II: non-linear models
Dong et al. Event-trigger optimal consensus for multi-agent system subject to differential privacy
CN116736722A (zh) 基于数据驱动的多机器人***最优比例协同控制方法
Tsai et al. Cooperative localization using fuzzy DDEIF and broad learning system for uncertain heterogeneous omnidirectional multi-robots
Liu et al. Data‐driven consensus control for a class of unknown nonlinear multiagent systems with time delays
Park et al. Payoff mechanism design for coordination in multi-agent task allocation games
CN114791741A (zh) 事件触发下无人***集群的无模型最优分组协同控制方法
CN110618607B (zh) 一种基于行为的多uuv自组织协调控制方法
Gaeta et al. Fitted Q-iteration by Functional Networks for control problems
CN114911157A (zh) 基于部分可观测强化学习的机器人导航控制方法及***
Sharma et al. Wavelet reduced order observer based adaptive tracking control for a class of uncertain nonlinear systems using reinforcement learning
CN112637120A (zh) 一种多智能体***一致性控制方法、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210326

WD01 Invention patent application deemed withdrawn after publication