CN112558470A - 一种执行器饱和多智能体***最优一致性控制方法和装置 - Google Patents
一种执行器饱和多智能体***最优一致性控制方法和装置 Download PDFInfo
- Publication number
- CN112558470A CN112558470A CN202011331025.1A CN202011331025A CN112558470A CN 112558470 A CN112558470 A CN 112558470A CN 202011331025 A CN202011331025 A CN 202011331025A CN 112558470 A CN112558470 A CN 112558470A
- Authority
- CN
- China
- Prior art keywords
- optimal
- agent
- neural network
- consistency control
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 229920006395 saturated elastomer Polymers 0.000 title claims description 26
- 230000006870 function Effects 0.000 claims abstract description 117
- 238000013528 artificial neural network Methods 0.000 claims abstract description 89
- 230000002787 reinforcement Effects 0.000 claims abstract description 17
- 239000003795 chemical substances by application Substances 0.000 claims description 166
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000004891 communication Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 19
- 238000011217 control strategy Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000013178 mathematical model Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 5
- 238000013461 design Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 229960001948 caffeine Drugs 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005183 dynamical system Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- RYYVLZVUVIJVGH-UHFFFAOYSA-N trimethylxanthine Natural products CN1C(=O)N(C)C(=O)C2=C1N=CN2C RYYVLZVUVIJVGH-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供一种执行器饱和多智能体***最优一致性控制方法和装置,方案通过构建受执行器饱和限制的多智能体***;设计每个智能体***的目标函数;构建最优目标函数和最优一致性控制输入满足的HJB方程;利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计最优目标函数和最优一致性控制输入;用加载有估计所得的最优一致性控制输入的控制器实现多智能体***最优一致性控制。本方案考虑了实际工程应用中广泛存在的执行器饱和现象,以及实际***的精确的动力学模型通常难以获取的难题,通过充分利用***的输入输出信息设计控制器,能够在有执行器饱和限制的情况下实现最优一致性控制。
Description
技术领域
本发明涉及多智能体协同控制领域技术领域,具体涉及一种基于强化学习的执行器饱和多智能体***最优一致性控制方法和装置。
背景技术
多智能体***相较于单智能体***具有较强的鲁棒性和容错能力,并且能够完成某些单个智能体难以完成的复杂任务。受自然界生物群体行为的启发,目前对多智能体***的研究主要集中在实现分布式协同控制,其控制目标主要包括:一致性、聚集、编队等。其中,一致性问题是多智能体***分布式协同控制研究中的一类基本问题。该问题主要关注如何利用局部信息设计分布式协同控制器,使***的某一变量,如速度、位置、相位等,达到一致。当考虑个体具有自私属性,即,个体在实现一致的过程中优化自身性能指标(比如最小化能量消耗、最大化收益),最优一致性问题由此产生。
随着网络技术的迅猛发展,控制***向着网络化、智能化和综合化的方向发展,多智能体***一致性理论在工程领域的应用越来越广泛。其中,典型的应用包括水下自动机器人***、无人机***、无线传感器网络等。然而,由于实际场景中存在许多限制,比如电机的力矩及转速是有限的,阀门开关的速度及大小不能任意大等,许多理论研究中所提出的一致性算法在实际工程应用中实现取得理想的效果。因此,对于执行器饱和的多智能体***一致性控制的研究因具有实际应用意义吸引了越来越多研究学者的关注。而如何设计分布式控制器在执行器饱和限制下实现最优一致性是一个仍未被解决的问题。
发明内容
有鉴于此,本发明实施例提供一种执行器饱和多智能体***最优一致性控制方法和装置,以实现执行器饱和限制下实现最优一致性。
为实现上述目的,本发明实施例提供如下技术方案:
一种执行器饱和多智能体***最优一致性控制方法,应用于多智能体的控制***中,方法包括:
构建受执行器饱和限制的多智能体***;
设计多智能体***中每个智能体的目标函数;
构建最优目标函数和最优一致性控制输入满足的HJB方程:
其中,δi表示第i个智能体的局部同步误差,Q为正定矩阵,为最优目标函数,为最优一致性控制输入,其中,表示对δi的偏导数,为非二次输入能量成本,A,B为***矩阵di为第i个智能体的入度,eij为第i个和第j个智能体间通信边的权重,Ni为第i个智能体的邻居节点的集合;
利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入;
基于估计得到的最优一致性控制输入对多智能体***进行控制。
可选的,上述执行器饱和多智能体***最优一致性控制方法中,所述构建受执行器饱和限制的多智能体***的数学模型包括:
构建每个智能体***的动力学方程:其中,i=1,...,N,i表示智能体的编号,A和B为未知的***矩阵,xi∈Rn表示第i个智能体的状态向量,Rn表示n维实空间,ui∈Ωi表示施加在第i个智能体***上的控制输入,Ωi={ui|ui∈Rp,||ui||∞≤λi,i=1,...,N}表示满足执行器饱和约束的控制输入的集合,||·||∞表示向量的无穷范数,λi>0表示预先设定的执行器饱和的界;
建立每个智能体***之间的通讯关系。
可选的,上述执行器饱和多智能体***最优一致性控制方法中,所述设计多智能体***中每个智能体的目标函数,包括:
设置一致性误差和输入能量的成本函数:t0表示初始时刻,u-i={uj|j∈Ni}表示智能体i的邻居节点的控制输入的集合,Q>0为正定矩阵,Yi(ui)表示非二次输入能量成本,定义为:其中,tanh(·)表示双曲正切函数,Ri为正定对角矩阵;
可选的,上述执行器饱和多智能体***最优一致性控制方法中,所述利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入,包括:
构建用于迭代计算的离策略贝尔曼方程;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
构建基于离策略贝尔曼方程的逼近误差;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
利用最小二乘法最小化所述逼近误差,得到神经网络权重的更新率。
可选的,上述执行器饱和多智能体***最优一致性控制方法中,所述离策略贝尔曼方程具体为:
所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;构建基于离策略贝尔曼方程的逼近误差;分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入,包括:
一种执行器饱和多智能体***最优一致性控制装置,应用于多智能体的控制***中,装置包括:
***构建单元,构建受执行器饱和限制的多智能体***;
目标函数构建单元,设计多智能体***中每个智能体的目标函数;
最优解方程构建单元,用于构建HJB方程:
其中,δi表示第i个智能体的局部同步误差,Q为正定矩阵,为最优目标函数,为最优一致性控制输入,其中, 表示对δi的偏导数,为非二次输入能量成本,A,B为***矩阵,di为第i个智能体的入度,eij为第i个和第j个智能体间通信边的权重,Ni为第i个智能体的邻居节点的集合;
估计与控制单元,用于利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入;基于估计得到的最优一致性控制输入对多智能体***进行控制。
可选的,上述执行器饱和多智能体***最优一致性控制装置中,所述构建受执行器饱和限制的多智能体***的数学模型包括:
构建每个智能体***的动力学方程:其中,i=1,...,N,i表示智能体的编号,A和B为未知的***矩阵,xi∈Rn表示第i个智能体的状态向量,Rn表示n维实空间,ui∈Ωi表示施加在第i个智能体***上的控制输入,Ωi={ui|ui∈Rp,||ui||∞≤λi,i=1,...,N}表示满足执行器饱和约束的控制输入的集合,||·||∞表示向量的无穷范数,λi>0表示预先设定的执行器饱和的界;
建立每个智能体***之间的通讯关系。
可选的,上述执行器饱和多智能体***最优一致性控制装置中,所述设计多智能体***中每个智能体的目标函数,包括:
设置一致性误差和输入能量的成本函数:t0表示初始时刻,u-i={uj|j∈Ni}表示智能体i的邻居节点的控制输入的集合,Q>0为正定矩阵,Yi(ui)表示非二次输入能量成本,定义为:其中,tanh(·)表示双曲正切函数,Ri为正定对角矩阵;
可选的,上述执行器饱和多智能体***最优一致性控制装置中,所述利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入,包括:
构建用于迭代计算的离策略贝尔曼方程;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
构建基于离策略贝尔曼方程的逼近误差;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
利用最小二乘法最小化所述逼近误差,得到神经网络权重的更新率。
可选的,上述执行器饱和多智能体***最优一致性控制装置中,所述离策略贝尔曼方程具体为:
所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;构建基于离策略贝尔曼方程的逼近误差;分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入,包括:
基于上述技术方案,本发明实施例提供的上述方案,通过构建受执行器饱和限制的多智能体***;设计每个智能体***的目标函数;构建最优目标函数和最优一致性控制输入满足的HJB方程;利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计最优目标函数和最优一致性控制输入;用加载有估计所得的最优一致性控制输入的控制器实现多智能体***最优一致性控制。本方案考虑了实际工程应用中广泛存在的执行器饱和现象,以及实际***的精确的动力学模型通常难以获取的难题,通过充分利用***的输入输出信息设计控制器,能够在有执行器饱和限制的情况下实现最优一致性控制。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种执行器饱和多智能体***最优一致性控制方法的流程示意图;
图2为本公开实施例多机器人***通信拓扑示意图;
图3为本公开实施例多机器人***状态演化示意图;
图4是本公开实施例多机器人***控制策略演化示意图;
图5为本申请实施例公开的一种执行器饱和多智能体***最优一致性控制装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,传统的一致性控制器设计方法严重依赖于完整的***动力学信息,而精确的***动力学信息通常难以获取。如何充分利用***与环境的交互,设计不依赖于***动力学信息的一致性控制器是一个亟需解决的问题。近年来,基于强化学习的控制方法因其能够实现不基于模型信息的控制而受到越来越多的关注。因此,基于强化学习的多智能体***协同控制方法是控制领域的发展的重要趋势。
一种执行器饱和多智能体***最优一致性控制方法,其特征在于,应用于多智能体的控制***中,方法包括:
步骤S101:构建受执行器饱和限制的多智能体***;
本步骤中,所述构建受执行器饱和限制的多智能体***主要由步骤A.1和步骤A.2构成。
步骤A.1:构建受执行器饱和限制的多智能体***的数学模型;
步骤A.2:建模每个智能体***之间的通讯关系。
在本申请公开实例中,所谓的多智能体***是指数量不少于2个的智能体的***,并且,地面移动机器人、水下自动机器人、无人机、传感器、电力单元等均可看作为智能体。
其中,i=1,...,N,i表示智能体的编号,A为n×n维***矩阵,B为n×p维***矩阵,且(A,B)是能稳定的,xi∈Rn表示第i个智能体的状态向量,Rn表示n维实空间,表示施加在第i个智能体***上的控制输入,表示满足执行器饱和约束的控制输入的集合,||·||∞表示向量的无穷范数,λi>0表示预先设定的执行器饱和的界。
在步骤A.2中,将每个智能体看作一个节点,如果智能体***j能够收到来自智能体***i的信息,则存在一条从节点i(智能体***i对应的节点)指向节点j(智能体***j对应的节点)的边,并用eij表示该边的权重。用图G=(V,ε,E)表示多智能体***的通讯拓扑,其中,V={1,…,N}表示节点(智能体对应的节点)的集合,ε表示通信边的集合,E=[eij]表示权重矩阵。Ni={j∈V:(j,i)∈ε}表示节点i的邻居节点的集合。要求图G中包含一个有向生成树,即,存在至少一个节点存在到达其他所有节点的有向路径。
步骤S102:设计多智能体***中每个智能体的目标函数;
具体的,本步骤可以包括:
步骤B.1:构造局部一致性误差;
步骤B.2:设计关于一致性误差和输入能量的成本函数;
其中,t0表示初始时刻,u-i={uj|j∈Ni}表示智能体i的邻居节点的控制输入的集合,Q>0为正定矩阵,Yi(ui)表示非二次输入能量成本,定义为:
其中,tanh(·)表示双曲正切函数,Ri为正定对角矩阵,其对角线元素为ri1,…,rip。
步骤B.3:给出智能体***的最优目标函数;
在本方案中,所述智能体i的目标函数定义为:
步骤S103:构建最优目标函数和最优一致性控制输入满足的HJB方程:
在本步骤中,基于所述最优目标函数以及所述最优一致性控制输入构建上述HJB方程;
步骤S104:利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入;
具体的,本步骤具体包括:
步骤D.1:构建用于迭代计算的离策略贝尔曼方程;其所述离策略贝尔曼方程的形式为:
步骤D.2:分别用critic神经网络和actor神经网络逼近最优目标函数和最优一致性控制输入,构建基于离策略贝尔曼方程的逼近误差;
其中:
其中,和表示神经网络逼近的最优目标函数和最优一致性控制输入,和分别表示critic神经网络和actor神经网络的激活函数向量,hv和分别为critic神经网络和actor神经网络隐含层神经元的数量,Wvi和表示critic神经网络和actor神经网络常权重矩阵。
其中,
ρΔφ(δi(t),δi(t′))=φi(δi(t))-φi(δi(t′))
u(t)={ui(t),i=1,…,N}
上述逼近误差可以等价地写作:
其中,
步骤D.3:利用最小二乘法最小化步骤D.2中的逼近误差,得到神经网络权重的更新率;包括:
本步骤包括:
步骤D.3.1:在有限时间区间内收集一组输入输出数据;
在本公开实例中,步骤D.3.1中,将探测噪声ei(t)施加在第i个智能体***上,即ui(t)=ei(t)。探测噪声可以为随机噪声、指数衰减的正弦信号等,能够保证智能体***被持续激励即可。将智能体***运行一段时间,采样M组智能体***数据其中上标k表示第k组数据,Δt表示采样时间间隔。计算可得M组一致性误差与智能体***输入的数据
步骤D.3.2:相关参数计算;
更新神经网络权重,直至权重收敛;
采用如下更新率更新神经网络权重:
其中,
步骤S105:基于估计的最优一致性控制输入对多智能体***进行控制。
下面通过一个具体实施例对本申请公开的技术方案进一步说明:
假设由3个地面移动机器人组成多机器人***(多智能体***),每个地面移动机器人具有二阶动力学,其数学形式为:
其中,i=1,2,3,si∈R表示第i个机器人的位置,vi∈R表示第i个机器人的速度,ui∈R表示第i个机器人的控制输入。执行器饱和约束为λi=15,即|ui|≤λi。将机器人的位置和速度选为状态变量,即,则上述二阶动力学***可以写成一般线性***的形式:
Critic神经网络和actor神经网络的激活函数分别选择为:
其中,δij表示一致性误差向量δi第j维的值。
施加在多机器人***上的探测噪声为:
利用收集的数据进行,迭代的更新神经网络权重,并将估计的最优控制策略施加在多机器人***上,多机器人***的状态及控制策略演化如图3和图4所示。可以看出,所述多智能体***的状态一致,且控制输入满足执行器饱和约束。
综上所述,本申请实施例提供的技术方案,通过构建受执行器饱和限制的多智能体***;设计每个智能体***的目标函数;构建最优目标函数和最优一致性控制输入满足的HJB方程;利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计最优目标函数和最优一致性控制输入;用加载有估计所得的最优一致性控制输入的控制器实现多智能体***最优一致性控制。本方案考虑了实际工程应用中广泛存在的执行器饱和现象,以及实际***的精确的动力学模型通常难以获取的难题,通过充分利用***的输入输出信息设计控制器,能够在有执行器饱和限制的情况下实现最优一致性控制。此外,与一般的一致性控制方法相比,本发明不仅考虑了群体之间的协作,而且考虑了个体的自私属性,能够在优化个体利益的同时实现一致性控制。
本实施例中公开了一种执行器饱和多智能体***最优一致性控制装置,装置中的各个单元的具体工作内容,请参见上述方法实施例的内容,下面对本发明实施例提供的执行器饱和多智能体***控制装置进行描述,下文描述的执行器饱和多智能体***控制装置与上文描述的执行器饱和多智能体***控制方法可相互对应参照。
参见图5,该装置可以包括:
***构建单元100,构建受执行器饱和限制的多智能体***;
目标函数构建单元200,设计多智能体***中每个智能体的目标函数;
最优解方程构建单元300,用于构建最优目标函数和最优一致性控制输入满足的HJB方程:
其中,δi表示第i个智能体的局部同步误差,Q为正定矩阵,为最优目标函数,为最优一致性控制输入,其中,表示对δi的偏导数,为非二次输入能量成本,A,B为***矩阵,di为第i个智能体的入度,eij为第i个和第j个智能体间通信边的权重,Ni为第i个智能体的邻居节点的集合;
估计与控制单元400,用于利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入;基于估计得到的最优一致性控制输入对多智能体***进行控制。
与上述方法相对应,所述构建受执行器饱和限制的多智能体***的数学模型包括:
构建每个智能体***的动力学方程:其中,i=1,...,N,i表示智能体的编号,A和B为未知的***矩阵,xi∈Rn表示第i个智能体的状态向量,Rn表示n维实空间,ui∈Ωi表示施加在第i个智能体***上的控制输入,Ωi={ui|ui∈Rp,||ui||∞≤λi,i=1,...,N}表示满足执行器饱和约束的控制输入的集合,||·||∞表示向量的无穷范数,λi>0表示预先设定的执行器饱和的界。
建立每个智能体***之间的通讯关系。
与上述方法相对应,所述设计多智能体***中每个智能体的目标函数,包括:
设置一致性误差和输入能量的成本函数:t0表示初始时刻,u-i={uj|j∈Ni}表示智能体i的邻居节点的控制输入的集合,Q>0为正定矩阵,Yi(ui)表示非二次输入能量成本,定义为:其中,tanh(·)表示双曲正切函数,Ri为正定对角矩阵;
与上述方法相对应,所述利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入,包括:
构建用于迭代计算的离策略贝尔曼方程;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
构建基于离策略贝尔曼方程的逼近误差;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
利用最小二乘法最小化所述逼近误差,得到神经网络权重的更新率。
与上述方法相对应,所述离策略贝尔曼方程具体为:
所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;构建基于离策略贝尔曼方程的逼近误差;分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入,包括:
为了描述的方便,描述以上***时以功能分为各种模块分别描述。当然,在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种执行器饱和多智能体***最优一致性控制方法,其特征在于,应用于多智能体的控制***中,方法包括:
构建受执行器饱和限制的多智能体***;
设计多智能体***中每个智能体的目标函数;
构建最优目标函数和最优一致性控制输入满足的HJB方程:
其中,δi表示第i个智能体的局部同步误差,Q为正定矩阵,为最优目标函数,为最优一致性控制输入,其中,表示对δi的偏导数,为非二次输入能量成本,A,B为***矩阵,di为第i个智能体的入度,eij为第i个和第j个智能体间通信边的权重,Ni为第i个智能体的邻居节点的集合;
利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入;
用加载有估计所得的最优一致性控制输入的控制器实现多智能体***最优一致性控制。
4.根据权利要求1所述的执行器饱和多智能体***最优一致性控制方法,其特征在于,所述利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入,包括:
构建用于迭代计算的离策略贝尔曼方程;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
构建基于离策略贝尔曼方程的逼近误差;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
利用最小二乘法最小化所述逼近误差,得到神经网络权重的更新率。
5.根据权利要求4所述的执行器饱和多智能体***最优一致性控制方法,其特征在于,所述离策略贝尔曼方程具体为:
所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;构建基于离策略贝尔曼方程的逼近误差;分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入,包括:
6.一种执行器饱和多智能体***最优一致性控制装置,其特征在于,应用于多智能体的控制***中,装置包括:
***构建单元,构建受执行器饱和限制的多智能体***;
目标函数构建单元,设计多智能体***中每个智能体的目标函数;
最优解方程构建单元,用于构建最优目标函数和最优一致性控制输入满足的HJB方程:
其中,δi表示第i个智能体的局部同步误差,Q为正定矩阵,为最优目标函数,为最优一致性控制输入,其中,表示对δi的偏导数,为非二次输入能量成本,A,B为***矩阵,di为第i个智能体的入度,eij为第i个和第j个智能体间通信边的权重,Ni为第i个智能体的邻居节点的集合;
估计与控制单元,用于利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入;基于估计得到的最优一致性控制输入对多智能体***进行控制。
9.根据权利要求6所述的执行器饱和多智能体***最优一致性控制装置,其特征在于,所述利用基于数据的离策略强化学习算法,结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入,包括:
构建用于迭代计算的离策略贝尔曼方程;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
构建基于离策略贝尔曼方程的逼近误差;
分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;
利用最小二乘法最小化所述逼近误差,得到神经网络权重的更新率。
10.根据权利要求9所述的执行器饱和多智能体***最优一致性控制装置,其特征在于,所述离策略贝尔曼方程具体为:
所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入;构建基于离策略贝尔曼方程的逼近误差;分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入,包括:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011331025.1A CN112558470A (zh) | 2020-11-24 | 2020-11-24 | 一种执行器饱和多智能体***最优一致性控制方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011331025.1A CN112558470A (zh) | 2020-11-24 | 2020-11-24 | 一种执行器饱和多智能体***最优一致性控制方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112558470A true CN112558470A (zh) | 2021-03-26 |
Family
ID=75043399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011331025.1A Pending CN112558470A (zh) | 2020-11-24 | 2020-11-24 | 一种执行器饱和多智能体***最优一致性控制方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112558470A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113093555A (zh) * | 2021-04-14 | 2021-07-09 | 江南大学 | 一种多智能体全局一致性控制方法及*** |
CN113110340A (zh) * | 2021-04-21 | 2021-07-13 | 江南大学 | 非连续多智能体***的分布式非平滑饱和一致性控制方法 |
CN113359476A (zh) * | 2021-07-09 | 2021-09-07 | 广东华中科技大学工业技术研究院 | 离散时间下多智能体***的一致性控制算法设计方法 |
CN113485101A (zh) * | 2021-06-10 | 2021-10-08 | 杭州电子科技大学 | 一种执行器饱和多智能体***增益调度控制方法 |
CN113985924A (zh) * | 2021-12-27 | 2022-01-28 | 中国科学院自动化研究所 | 飞行器控制方法、装置、设备及计算机程序产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104570740A (zh) * | 2015-01-21 | 2015-04-29 | 江南大学 | 一种输入饱和机械臂***的周期自适应学习控制方法 |
CN106054594A (zh) * | 2016-06-12 | 2016-10-26 | 金陵科技学院 | 基于控制输入饱和的无模型自适应控制方法 |
US20170146971A1 (en) * | 2015-11-19 | 2017-05-25 | Omron Corporation | Control device, control method, information processing program, and recording medium |
CN109683477A (zh) * | 2018-12-12 | 2019-04-26 | 中国地质大学(武汉) | 一种随机多智能体***有限时间控制器的设计方法及*** |
CN111679585A (zh) * | 2020-07-03 | 2020-09-18 | 大连海事大学 | 一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法 |
-
2020
- 2020-11-24 CN CN202011331025.1A patent/CN112558470A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104570740A (zh) * | 2015-01-21 | 2015-04-29 | 江南大学 | 一种输入饱和机械臂***的周期自适应学习控制方法 |
US20170146971A1 (en) * | 2015-11-19 | 2017-05-25 | Omron Corporation | Control device, control method, information processing program, and recording medium |
CN106054594A (zh) * | 2016-06-12 | 2016-10-26 | 金陵科技学院 | 基于控制输入饱和的无模型自适应控制方法 |
CN109683477A (zh) * | 2018-12-12 | 2019-04-26 | 中国地质大学(武汉) | 一种随机多智能体***有限时间控制器的设计方法及*** |
CN111679585A (zh) * | 2020-07-03 | 2020-09-18 | 大连海事大学 | 一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法 |
Non-Patent Citations (2)
Title |
---|
JIAHU QIN等: "Optimal Synchronization Control of Multiagent", 《 IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS ( VOLUME: 30, ISSUE: 1, JAN. 2019)》 * |
赵肇雄: "《大学物理学》", 31 January 2014, 武汉大学出版社 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113093555A (zh) * | 2021-04-14 | 2021-07-09 | 江南大学 | 一种多智能体全局一致性控制方法及*** |
CN113110340A (zh) * | 2021-04-21 | 2021-07-13 | 江南大学 | 非连续多智能体***的分布式非平滑饱和一致性控制方法 |
CN113485101A (zh) * | 2021-06-10 | 2021-10-08 | 杭州电子科技大学 | 一种执行器饱和多智能体***增益调度控制方法 |
CN113359476A (zh) * | 2021-07-09 | 2021-09-07 | 广东华中科技大学工业技术研究院 | 离散时间下多智能体***的一致性控制算法设计方法 |
CN113985924A (zh) * | 2021-12-27 | 2022-01-28 | 中国科学院自动化研究所 | 飞行器控制方法、装置、设备及计算机程序产品 |
CN113985924B (zh) * | 2021-12-27 | 2022-04-08 | 中国科学院自动化研究所 | 飞行器控制方法、装置、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112558470A (zh) | 一种执行器饱和多智能体***最优一致性控制方法和装置 | |
CN108803349B (zh) | 非线性多智能体***的最优一致性控制方法及*** | |
Enthrakandi Narasimhan et al. | Implementation and study of a novel approach to control adaptive cooperative robot using fuzzy rules | |
Ge et al. | Adaptive neural control of uncertain MIMO nonlinear systems | |
Howell et al. | Continuous action reinforcement learning automata and their application to adaptive digital filter design | |
Lu et al. | On robust control of uncertain chaotic systems: a sliding-mode synthesis via chaotic optimization | |
CN112180730B (zh) | 一种多智能体***分层最优一致性控制方法和装置 | |
Zhang et al. | Recurrent neural network‐based model predictive control for multiple unmanned quadrotor formation flight | |
Peng et al. | Distributed robust state and output feedback controller designs for rendezvous of networked autonomous surface vehicles using neural networks | |
Liu et al. | General type-2 fuzzy sliding mode control for motion balance adjusting of power-line inspection robot | |
CN117055605A (zh) | 多无人机姿态控制方法及*** | |
Cui et al. | Adaptive consensus tracking control of strict-feedback nonlinear multi-agent systems with unknown dynamic leader | |
Yen et al. | Design of a robust neural network-based tracking controller for a class of electrically driven nonholonomic mechanical systems | |
Oliveira et al. | An introduction to models based on Laguerre, Kautz and other related orthonormal functions–Part II: non-linear models | |
Dong et al. | Event-trigger optimal consensus for multi-agent system subject to differential privacy | |
CN116736722A (zh) | 基于数据驱动的多机器人***最优比例协同控制方法 | |
Tsai et al. | Cooperative localization using fuzzy DDEIF and broad learning system for uncertain heterogeneous omnidirectional multi-robots | |
Liu et al. | Data‐driven consensus control for a class of unknown nonlinear multiagent systems with time delays | |
Park et al. | Payoff mechanism design for coordination in multi-agent task allocation games | |
CN114791741A (zh) | 事件触发下无人***集群的无模型最优分组协同控制方法 | |
CN110618607B (zh) | 一种基于行为的多uuv自组织协调控制方法 | |
Gaeta et al. | Fitted Q-iteration by Functional Networks for control problems | |
CN114911157A (zh) | 基于部分可观测强化学习的机器人导航控制方法及*** | |
Sharma et al. | Wavelet reduced order observer based adaptive tracking control for a class of uncertain nonlinear systems using reinforcement learning | |
CN112637120A (zh) | 一种多智能体***一致性控制方法、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210326 |
|
WD01 | Invention patent application deemed withdrawn after publication |