CN112558470A

CN112558470A - 一种执行器饱和多智能体***最优一致性控制方法和装置

Info

Publication number: CN112558470A
Application number: CN202011331025.1A
Authority: CN
Inventors: 秦家虎; 李曼; 马麒超; 张聪
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-26

Abstract

本发明提供一种执行器饱和多智能体***最优一致性控制方法和装置，方案通过构建受执行器饱和限制的多智能体***；设计每个智能体***的目标函数；构建最优目标函数和最优一致性控制输入满足的HJB方程；利用基于数据的离策略强化学习算法，结合基于神经网络的值函数逼近方法估计最优目标函数和最优一致性控制输入；用加载有估计所得的最优一致性控制输入的控制器实现多智能体***最优一致性控制。本方案考虑了实际工程应用中广泛存在的执行器饱和现象，以及实际***的精确的动力学模型通常难以获取的难题，通过充分利用***的输入输出信息设计控制器，能够在有执行器饱和限制的情况下实现最优一致性控制。

Description

一种执行器饱和多智能体***最优一致性控制方法和装置

技术领域

本发明涉及多智能体协同控制领域技术领域，具体涉及一种基于强化学习的执行器饱和多智能体***最优一致性控制方法和装置。

背景技术

多智能体***相较于单智能体***具有较强的鲁棒性和容错能力，并且能够完成某些单个智能体难以完成的复杂任务。受自然界生物群体行为的启发，目前对多智能体***的研究主要集中在实现分布式协同控制，其控制目标主要包括：一致性、聚集、编队等。其中，一致性问题是多智能体***分布式协同控制研究中的一类基本问题。该问题主要关注如何利用局部信息设计分布式协同控制器，使***的某一变量，如速度、位置、相位等，达到一致。当考虑个体具有自私属性，即，个体在实现一致的过程中优化自身性能指标(比如最小化能量消耗、最大化收益)，最优一致性问题由此产生。

随着网络技术的迅猛发展，控制***向着网络化、智能化和综合化的方向发展，多智能体***一致性理论在工程领域的应用越来越广泛。其中，典型的应用包括水下自动机器人***、无人机***、无线传感器网络等。然而，由于实际场景中存在许多限制，比如电机的力矩及转速是有限的，阀门开关的速度及大小不能任意大等，许多理论研究中所提出的一致性算法在实际工程应用中实现取得理想的效果。因此，对于执行器饱和的多智能体***一致性控制的研究因具有实际应用意义吸引了越来越多研究学者的关注。而如何设计分布式控制器在执行器饱和限制下实现最优一致性是一个仍未被解决的问题。

发明内容

有鉴于此，本发明实施例提供一种执行器饱和多智能体***最优一致性控制方法和装置，以实现执行器饱和限制下实现最优一致性。

为实现上述目的，本发明实施例提供如下技术方案：

一种执行器饱和多智能体***最优一致性控制方法，应用于多智能体的控制***中，方法包括：

构建受执行器饱和限制的多智能体***；

设计多智能体***中每个智能体的目标函数；

构建最优目标函数和最优一致性控制输入满足的HJB方程：

其中，δ_i表示第i个智能体的局部同步误差，Q为正定矩阵，

为最优目标函数，

为最优一致性控制输入，

其中，

表示

对δ_i的偏导数，

为非二次输入能量成本，A，B为***矩阵d_i为第i个智能体的入度，e_ij为第i个和第j个智能体间通信边的权重，N_i为第i个智能体的邻居节点的集合；

利用基于数据的离策略强化学习算法，结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入；

基于估计得到的最优一致性控制输入对多智能体***进行控制。

可选的，上述执行器饱和多智能体***最优一致性控制方法中，所述构建受执行器饱和限制的多智能体***的数学模型包括：

构建每个智能体***的动力学方程：

其中，i＝1，...，N，i表示智能体的编号，A和B为未知的***矩阵，x_i∈Rⁿ表示第i个智能体的状态向量，Rⁿ表示n维实空间，u_i∈Ω_i表示施加在第i个智能体***上的控制输入，Ω_i＝{u_i|u_i∈R^p，||u_i||_∞≤λ_i，i＝1，...，N}表示满足执行器饱和约束的控制输入的集合，||·||_∞表示向量的无穷范数，λ_i＞0表示预先设定的执行器饱和的界；

建立每个智能体***之间的通讯关系。

可选的，上述执行器饱和多智能体***最优一致性控制方法中，所述设计多智能体***中每个智能体的目标函数，包括：

设计一致性误差函数：

其中，e_ij表示第i个和第j个智能体间通信边的权重，N_i表示第i个智能体的邻居节点的集合；

设置一致性误差和输入能量的成本函数：

t₀表示初始时刻，u_-i＝{u_j|j∈N_i}表示智能体i的邻居节点的控制输入的集合，Q＞0为正定矩阵，Y_i(u_i)表示非二次输入能量成本，定义为：

其中，tanh(·)表示双曲正切函数，R_i为正定对角矩阵；

将智能体i的值函数定义为：

可选的，上述执行器饱和多智能体***最优一致性控制方法中，所述利用基于数据的离策略强化学习算法，结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入，包括：

构建用于迭代计算的离策略贝尔曼方程；

分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入；

构建基于离策略贝尔曼方程的逼近误差；

利用最小二乘法最小化所述逼近误差，得到神经网络权重的更新率。

可选的，上述执行器饱和多智能体***最优一致性控制方法中，所述离策略贝尔曼方程具体为：

其中，t′＝t+Δt，上标(s)表示相应的变量在第s步迭代得到的值，u_i表示实际施加在多智能体***上用于产生数据的控制策略，

为目标策略，表示用于更新的策略，

表示第i个智能体的入度；

所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入；构建基于离策略贝尔曼方程的逼近误差；分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入，包括：

所述分别用critic神经网络和actor神经网络逼近最优值函数和最优一致性控制输入：

和

其中，

和

表示神经网络逼近的值函数和一致性控制输入，

和

表示相应的神经网络的激活函数向量，h_v和

为相应的神经网络隐含层神经元的数量，W_vi和

表示常权重矩阵，

将所述

和

代入所述离策略贝尔曼方程得到基于离策略贝尔曼方程的逼近误差。

一种执行器饱和多智能体***最优一致性控制装置，应用于多智能体的控制***中，装置包括：

***构建单元，构建受执行器饱和限制的多智能体***；

目标函数构建单元，设计多智能体***中每个智能体的目标函数；

最优解方程构建单元，用于构建HJB方程：

其中，δ_i表示第i个智能体的局部同步误差，Q为正定矩阵，

为最优目标函数，

为最优一致性控制输入，

其中，

表示

对δ_i的偏导数，

为非二次输入能量成本，A，B为***矩阵，d_i为第i个智能体的入度，e_ij为第i个和第j个智能体间通信边的权重，N_i为第i个智能体的邻居节点的集合；

估计与控制单元，用于利用基于数据的离策略强化学习算法，结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入；基于估计得到的最优一致性控制输入对多智能体***进行控制。

可选的，上述执行器饱和多智能体***最优一致性控制装置中，所述构建受执行器饱和限制的多智能体***的数学模型包括：

构建每个智能体***的动力学方程：

建立每个智能体***之间的通讯关系。

可选的，上述执行器饱和多智能体***最优一致性控制装置中，所述设计多智能体***中每个智能体的目标函数，包括：

设计一致性误差函数：

设置一致性误差和输入能量的成本函数：

其中，tanh(·)表示双曲正切函数，R_i为正定对角矩阵；

将智能体i的值函数定义为：

可选的，上述执行器饱和多智能体***最优一致性控制装置中，所述利用基于数据的离策略强化学习算法，结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入，包括：

构建用于迭代计算的离策略贝尔曼方程；

构建基于离策略贝尔曼方程的逼近误差；

可选的，上述执行器饱和多智能体***最优一致性控制装置中，所述离策略贝尔曼方程具体为：

为目标策略，表示用于更新的策略，

表示第i个智能体的入度；

和

其中，

和

表示神经网络逼近的值函数和一致性控制输入，

和

表示相应的神经网络的激活函数向量，h_v和

为相应的神经网络隐含层神经元的数量，W_vi和

表示常权重矩阵，

将所述

和

基于上述技术方案，本发明实施例提供的上述方案，通过构建受执行器饱和限制的多智能体***；设计每个智能体***的目标函数；构建最优目标函数和最优一致性控制输入满足的HJB方程；利用基于数据的离策略强化学习算法，结合基于神经网络的值函数逼近方法估计最优目标函数和最优一致性控制输入；用加载有估计所得的最优一致性控制输入的控制器实现多智能体***最优一致性控制。本方案考虑了实际工程应用中广泛存在的执行器饱和现象，以及实际***的精确的动力学模型通常难以获取的难题，通过充分利用***的输入输出信息设计控制器，能够在有执行器饱和限制的情况下实现最优一致性控制。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种执行器饱和多智能体***最优一致性控制方法的流程示意图；

图2为本公开实施例多机器人***通信拓扑示意图；

图3为本公开实施例多机器人***状态演化示意图；

图4是本公开实施例多机器人***控制策略演化示意图；

图5为本申请实施例公开的一种执行器饱和多智能体***最优一致性控制装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，传统的一致性控制器设计方法严重依赖于完整的***动力学信息，而精确的***动力学信息通常难以获取。如何充分利用***与环境的交互，设计不依赖于***动力学信息的一致性控制器是一个亟需解决的问题。近年来，基于强化学习的控制方法因其能够实现不基于模型信息的控制而受到越来越多的关注。因此，基于强化学习的多智能体***协同控制方法是控制领域的发展的重要趋势。

一种执行器饱和多智能体***最优一致性控制方法，其特征在于，应用于多智能体的控制***中，方法包括：

步骤S101：构建受执行器饱和限制的多智能体***；

本步骤中，所述构建受执行器饱和限制的多智能体***主要由步骤A.1和步骤A.2构成。

步骤A.1：构建受执行器饱和限制的多智能体***的数学模型；

步骤A.2：建模每个智能体***之间的通讯关系。

在本申请公开实例中，所谓的多智能体***是指数量不少于2个的智能体的***，并且，地面移动机器人、水下自动机器人、无人机、传感器、电力单元等均可看作为智能体。

步骤A.1中，所述多智能体***中包含N个个体，N≥2，每个智能体的一般线性动力学方程描述为：

其中，i＝1，...，N，i表示智能体的编号，A为n×n维***矩阵，B为n×p维***矩阵，且(A，B)是能稳定的，x_i∈Rⁿ表示第i个智能体的状态向量，Rⁿ表示n维实空间，

表示施加在第i个智能体***上的控制输入，

表示满足执行器饱和约束的控制输入的集合，||·||_∞表示向量的无穷范数，λ_i＞0表示预先设定的执行器饱和的界。

在步骤A.2中，将每个智能体看作一个节点，如果智能体***j能够收到来自智能体***i的信息，则存在一条从节点i(智能体***i对应的节点)指向节点j(智能体***j对应的节点)的边，并用e_ij表示该边的权重。用图G＝(V，ε，E)表示多智能体***的通讯拓扑，其中，V＝{1，…，N}表示节点(智能体对应的节点)的集合，ε表示通信边的集合，E＝[e_ij]表示权重矩阵。N_i＝{j∈V：(j，i)∈ε}表示节点i的邻居节点的集合。要求图G中包含一个有向生成树，即，存在至少一个节点存在到达其他所有节点的有向路径。

步骤S102：设计多智能体***中每个智能体的目标函数；

具体的，本步骤可以包括：

步骤B.1：构造局部一致性误差；

在本方案中，将局部一致性误差定义为个体与其邻居节点的状态之差的加权和，数学表示为：

将一致性误差的动力学表示为：

其中，

表示节点i的入度。

步骤B.2：设计关于一致性误差和输入能量的成本函数；

智能体***i的成本函数设计为：

其中，t₀表示初始时刻，u_-i＝{u_j|j∈N_i}表示智能体i的邻居节点的控制输入的集合，Q＞0为正定矩阵，Y_i(u_i)表示非二次输入能量成本，定义为：

其中，tanh(·)表示双曲正切函数，R_i为正定对角矩阵，其对角线元素为r_i1，…，r_ip。

步骤B.3：给出智能体***的最优目标函数；

在本方案中，所述智能体i的目标函数定义为：

步骤S103：构建最优目标函数和最优一致性控制输入满足的HJB方程：

其中，所述

为最优目标函数，

为最优一致性控制输入，所述

其中，

表示

对δ_i的偏导数；

在本步骤中，基于所述最优目标函数以及所述最优一致性控制输入构建上述HJB方程；

步骤S104：利用基于数据的离策略强化学习算法，结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入；

具体的，本步骤具体包括：

步骤D.1：构建用于迭代计算的离策略贝尔曼方程；其所述离策略贝尔曼方程的形式为：

其中，t′＝t+Δt，上标(s)表示相应的变量在第s步迭代得到的值，u_i为行为策略，表示实际施加在***上用于产生数据的控制策略，

为目标策略，表示用于更新的策略。

步骤D.2：分别用critic神经网络和actor神经网络逼近最优目标函数和最优一致性控制输入，构建基于离策略贝尔曼方程的逼近误差；

其中：

其中，

和

表示神经网络逼近的最优目标函数和最优一致性控制输入，

和

分别表示critic神经网络和actor神经网络的激活函数向量，h_v和

分别为critic神经网络和actor神经网络隐含层神经元的数量，W_vi和

表示critic神经网络和actor神经网络常权重矩阵。

将

和

带入步骤D.1得到的离策略贝尔曼方程中，可得如下逼近误差：

其中，

ρ_Δφ(δ_i(t)，δ_i(t′))＝φ_i(δ_i(t))-φ_i(δ_i(t′))

u(t)＝{u_i(t)，i＝1，…，N}

上述逼近误差可以等价地写作：

其中，

步骤D.3：利用最小二乘法最小化步骤D.2中的逼近误差，得到神经网络权重的更新率；包括：

本步骤包括：

步骤D.3.1：在有限时间区间内收集一组输入输出数据；

在本公开实例中，步骤D.3.1中，将探测噪声e_i(t)施加在第i个智能体***上，即u_i(t)＝e_i(t)。探测噪声可以为随机噪声、指数衰减的正弦信号等，能够保证智能体***被持续激励即可。将智能体***运行一段时间，采样M组智能体***数据

其中上标k表示第k组数据，Δt表示采样时间间隔。计算可得M组一致性误差与智能体***输入的数据

步骤D.3.2：相关参数计算；

对每一组数据(一致性误差与智能体***输入的数据)计算相应的

和

其中，上标k表示使用第k组数据计算得到的值：

更新神经网络权重，直至权重收敛；

采用如下更新率更新神经网络权重：

其中，

直至

其中，ε表示给定的计算精度。

步骤S105：基于估计的最优一致性控制输入对多智能体***进行控制。

在本步骤中，用步骤104所确定的控制器实现多智能体***最优一致性控制；当利用步骤104所确定的控制器

对所述多智能体***进行控制时，满足下列条件：

对于任意的p，q∈V成立，且对于给定的优化误差∈，在t→∞时

成立，则所述多智能体***实现最优一致性控制，其中||·||₂表示向量的2范数。

下面通过一个具体实施例对本申请公开的技术方案进一步说明：

假设由3个地面移动机器人组成多机器人***(多智能体***)，每个地面移动机器人具有二阶动力学，其数学形式为：

其中，i＝1，2，3，s_i∈R表示第i个机器人的位置，v_i∈R表示第i个机器人的速度，u_i∈R表示第i个机器人的控制输入。执行器饱和约束为λ_i＝15，即|u_i|≤λ_i。将机器人的位置和速度选为状态变量，即，

则上述二阶动力学***可以写成一般线性***的形式：

其中，

三个机器人之间的通信拓扑如图2所示，图2中有向边上的数字(例如，图中的0.1)表示边的权重。

按照如步骤B.1所示方式给出局部一致性误差，并设计如步骤B.2所示成本函数，其中

R₁＝R₂＝R₃＝30。

Critic神经网络和actor神经网络的激活函数分别选择为：

其中，δ_ij表示一致性误差向量δ_i第j维的值。

施加在多机器人***上的探测噪声为：

其中，

在[-800，800]上随机分布。将***运行3秒，且每隔0.01秒采集一组数据

则共有M＝301组数据。

利用收集的数据进行，迭代的更新神经网络权重，并将估计的最优控制策略

施加在多机器人***上，多机器人***的状态及控制策略演化如图3和图4所示。可以看出，所述多智能体***的状态一致，且控制输入满足执行器饱和约束。

综上所述，本申请实施例提供的技术方案，通过构建受执行器饱和限制的多智能体***；设计每个智能体***的目标函数；构建最优目标函数和最优一致性控制输入满足的HJB方程；利用基于数据的离策略强化学习算法，结合基于神经网络的值函数逼近方法估计最优目标函数和最优一致性控制输入；用加载有估计所得的最优一致性控制输入的控制器实现多智能体***最优一致性控制。本方案考虑了实际工程应用中广泛存在的执行器饱和现象，以及实际***的精确的动力学模型通常难以获取的难题，通过充分利用***的输入输出信息设计控制器，能够在有执行器饱和限制的情况下实现最优一致性控制。此外，与一般的一致性控制方法相比，本发明不仅考虑了群体之间的协作，而且考虑了个体的自私属性，能够在优化个体利益的同时实现一致性控制。

本实施例中公开了一种执行器饱和多智能体***最优一致性控制装置，装置中的各个单元的具体工作内容，请参见上述方法实施例的内容，下面对本发明实施例提供的执行器饱和多智能体***控制装置进行描述，下文描述的执行器饱和多智能体***控制装置与上文描述的执行器饱和多智能体***控制方法可相互对应参照。

参见图5，该装置可以包括：

***构建单元100，构建受执行器饱和限制的多智能体***；

目标函数构建单元200，设计多智能体***中每个智能体的目标函数；

最优解方程构建单元300，用于构建最优目标函数和最优一致性控制输入满足的HJB方程：

其中，δ_i表示第i个智能体的局部同步误差，Q为正定矩阵，

为最优目标函数，

为最优一致性控制输入，

其中，

表示

对δ_i的偏导数，

估计与控制单元400，用于利用基于数据的离策略强化学习算法，结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入；基于估计得到的最优一致性控制输入对多智能体***进行控制。

与上述方法相对应，所述构建受执行器饱和限制的多智能体***的数学模型包括：

构建每个智能体***的动力学方程：

其中，i＝1，...，N，i表示智能体的编号，A和B为未知的***矩阵，x_i∈Rⁿ表示第i个智能体的状态向量，Rⁿ表示n维实空间，u_i∈Ω_i表示施加在第i个智能体***上的控制输入，Ω_i＝{u_i|u_i∈R^p，||u_i||_∞≤λ_i，i＝1，...，N}表示满足执行器饱和约束的控制输入的集合，||·||_∞表示向量的无穷范数，λ_i＞0表示预先设定的执行器饱和的界。

建立每个智能体***之间的通讯关系。

与上述方法相对应，所述设计多智能体***中每个智能体的目标函数，包括：

设计一致性误差函数：

设置一致性误差和输入能量的成本函数：

其中，tanh(·)表示双曲正切函数，R_i为正定对角矩阵；

将智能体i的值函数定义为：

与上述方法相对应，所述利用基于数据的离策略强化学习算法，结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入，包括：

构建用于迭代计算的离策略贝尔曼方程；

构建基于离策略贝尔曼方程的逼近误差；

与上述方法相对应，所述离策略贝尔曼方程具体为：

为目标策略，表示用于更新的策略，

表示第i个智能体的入度；

和

其中，

和

表示神经网络逼近的值函数和一致性控制输入，

和

表示相应的神经网络的激活函数向量，h_v和

为相应的神经网络隐含层神经元的数量，W_vi和

表示常权重矩阵，

将所述

和

为了描述的方便，描述以上***时以功能分为各种模块分别描述。当然，在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种执行器饱和多智能体***最优一致性控制方法，其特征在于，应用于多智能体的控制***中，方法包括：

构建受执行器饱和限制的多智能体***；

设计多智能体***中每个智能体的目标函数；

构建最优目标函数和最优一致性控制输入满足的HJB方程：

其中，δ_i表示第i个智能体的局部同步误差，Q为正定矩阵，

为最优目标函数，

为最优一致性控制输入，

其中，

表示

对δ_i的偏导数，

用加载有估计所得的最优一致性控制输入的控制器实现多智能体***最优一致性控制。

2.根据权利要求1所述的执行器饱和多智能体***最优一致性控制方法，其特征在于，所述构建受执行器饱和限制的多智能体***的数学模型包括：

构建每个智能体***的动力学方程：

建立每个智能体***之间的通讯关系。

3.根据权利要求1所述的执行器饱和多智能体***最优一致性控制方法，其特征在于，所述设计多智能体***中每个智能体的目标函数，包括：

设计一致性误差函数：

设置一致性误差和输入能量的成本函数：

其中，tanh(·)表示双曲正切函数，R_i为正定对角矩阵；

将智能体i的值函数定义为：

4.根据权利要求1所述的执行器饱和多智能体***最优一致性控制方法，其特征在于，所述利用基于数据的离策略强化学习算法，结合基于神经网络的值函数逼近方法估计所述HJB方程中的最优目标函数和最优一致性控制输入，包括：

构建用于迭代计算的离策略贝尔曼方程；

构建基于离策略贝尔曼方程的逼近误差；

5.根据权利要求4所述的执行器饱和多智能体***最优一致性控制方法，其特征在于，所述离策略贝尔曼方程具体为：

为目标策略，表示用于更新的策略，

表示第i个智能体的入度；

和

其中，

和

表示神经网络逼近的值函数和一致性控制输入，

和

表示相应的神经网络的激活函数向量，h_v和

为相应的神经网络隐含层神经元的数量，W_vi和

表示常权重矩阵，

将所述

和

6.一种执行器饱和多智能体***最优一致性控制装置，其特征在于，应用于多智能体的控制***中，装置包括：

***构建单元，构建受执行器饱和限制的多智能体***；

最优解方程构建单元，用于构建最优目标函数和最优一致性控制输入满足的HJB方程：

其中，δ_i表示第i个智能体的局部同步误差，Q为正定矩阵，

为最优目标函数，

为最优一致性控制输入，

其中，

表示

对δ_i的偏导数，

7.根据权利要求6所述的执行器饱和多智能体***最优一致性控制装置，其特征在于，所述构建受执行器饱和限制的多智能体***的数学模型包括：

构建每个智能体***的动力学方程：

其中，i＝1，…，N，i表示智能体的编号，A和B为未知的***矩阵，x_i∈Rⁿ表示第i个智能体的状态向量，Rⁿ表示n维实空间，u_i∈Ω_i表示施加在第i个智能体***上的控制输入，Ω_i＝{u_i|u_i∈R^p，||u_i||_∞≤λ_i，i＝1，...，N}表示满足执行器饱和约束的控制输入的集合，||·||_∞表示向量的无穷范数，λ_i＞0表示预先设定的执行器饱和的界；

建立每个智能体***之间的通讯关系。

8.根据权利要求6所述的执行器饱和多智能体***最优一致性控制装置，其特征在于，所述设计多智能体***中每个智能体的目标函数，包括：

设计一致性误差函数：