CN114755926A

CN114755926A - 一种基于强化学习的多智能体***最优一致性的控制方法

Info

Publication number: CN114755926A
Application number: CN202210508624.9A
Authority: CN
Inventors: 纪良浩; 简凯; 杨莎莎; 郭兴; 李华青
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-07-15

Abstract

本发明请求保护一种基于强化学习的多智能体***最优一致性的控制方法，属于多智能体***协同控制领域，包括：确定多智能体***的拓扑结构与智能体的动力学方程，其中智能体的***矩阵是未知的；***拓扑图中包含有向生成树，并且有向生成树的根节点为领导者；根据***状态定义智能体的局部跟踪误差以及局部跟踪误差的更新表达式，从而将一致性问题转化为跟踪控制问题；定义性能指标函数用来评估当前的控制策略，并根据当前的性能指标函数对控制策略进行优化；对***在演化过程中的信息进行收集，并设计一个自适应动态规划算法用于近似智能体的控制策略与性能指标，根据控制策略对智能体状态进行更新，从而达到最优一致性。

Description

一种基于强化学习的多智能体***最优一致性的控制方法

技术领域

本发明涉及多智能体协同控制技术领域，涉及一种基于策略梯度强化学习算法的多智能体最优一致性控制。

背景技术

自然界中普遍存在着生物的群集现象，其指的是一些生物通常会以一定的规则进行群体性的活动。比如蜜蜂筑巢；鱼群觅食。相关专家学者受到这一生物集群行为的启发，将多智能体***(multi-agent systems,MASs)一致性应用到复杂***的协同控制中,如智能电网、传感器网络、无人机群的协同工作等。一致性指的式多智能体***中的各个智能体通过与自己局部智能体进行信息交流，根据提前设置的控制协议来动态的调整自身的行为，从达到某一个共同的状态。

在现实生活中，***在达成特定控制目的过程中所需要的资源和成本都是有限的，考虑到经济性与实用性，***必须能以最经济的方式完成控制任务，否则理论成果将难以应用到现实的工业领域中。此外，在实际应用中，智能体的***信息是很难获取的，因此，研究未知模型下的多智能体***最优一致性控制具有很强应用价值。

在求解最优一致性控制的过程中，传统的做法是基于贪婪策略来优化控制策略的，即直接令所估计的控制策略能够最小化性能指标函数，然而，这样的作法通常会导致计算成本过高，训练过程不稳定，在实际应用中是不可取的。策略梯度算法通过对性能指标函数求梯度，以“软更新”的方式来对控制策略进行迭代更新往往能以更低的计算成本求得最优的控制策略。

目前，大多数使用数据驱动方法来研究多智能体***最优一致性控制的工作对***所测量出的数据往往只会使用一次，即根据当且迭代产生的数据来更新当前的控制策略。然而，在实际应用中，真实***所测量出的数据是很宝贵的，可以作为训练数据供其他相似***使用。因此，与普通的数据驱动方法相比较，通过引入经验回放机制来收集智能体在迭代过程中所产生的数据能够反复的利用这些数据，提升数据效率，在数据获取困难的情况下更有效果。并且通过随机选择训练数据能够打破数据之间的相关性，从而获得更好的训练效果。

上面提及的大多数研究工作都是使用单一的神经网络结构(评估网络)来对智能体进行训练，使用单独的Critic网络估计的性能指标函数在追逐变化的累计效用函数时很容易出现不稳定的情况。通过引入目标网络，其在一段时间内是相对固定的，就可以将评估网络的更新转换为类似监督学习的问题，从而增加了学习过程的稳定性，更符合实际应用场景的需求。因此，如何设计一种基于策略梯度强化学习算法实现多智能体***的最优一致性控制，是一个亟待解决的问题。

经过检索，申请公开号CN112180730A，一种多智能体***分层最优一致性控制方法和装置，方法包括：建模具有分层结构和信息不对称性的多智能体***，设计每个智能体的目标函数；基于斯塔克伯格-纳什博弈和动态规划理论推导最优值函数和最优控制输入所满足的方程，设计值迭代强化学习算法迭代计算最优值函数和最优控制策略；利用基于神经网络的值函数逼近方法，给出强化学习算法的一种实现；基于强化学习算法的一种实现所确定的控制器实现多智能体***分层最优一致性控制。本发明基于斯塔克伯格-纳什博弈，能够实现智能体之间存在决策先后顺序情况下的最优一致性控制，并能够在***动力学模型信息不完全已知的情况下获得较好的控制效果。

在一种多智能体***分层最优一致性控制方法和装置专利中，***在达成最优控制的过程中需要依赖***矩阵B进行求解，而在实际环境中，***矩阵B难以获取，而本发明中，***以无模型的方式实现了最优控制，即求解过程不依赖***矩阵B；并且，本专利中使用了基于离策的强化学习算法与经验池机制，使得智能体有着更强的探索能力，能够获得更优的控制策略，并且，经验池机制能够重复利用测量的数据，避免数据浪费，更具有实用性。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于强化学习的多智能体***最优一致性的控制方法。本发明的技术方案如下：

一种基于强化学习的多智能体***最优一致性的控制方法，其包括以下步骤：

S1、根据多智能体***中智能体之间的信息交互，确定多智能体***的拓扑结构，并且保证拓扑结构中包含一棵有向生成树；

S2、将多智能体***中的智能体分为两类，一类为领导者智能体，其不会接收到来自邻居节点发送的信息，即对应着拓扑图中入度为0的节点；另一类为跟随者智能体，其会根据所接收到邻居智能体发送的信息对自身行为做出调整；

S3、智能体之间能通过其配置的传感器获取它们之间状态信息的差值，状态信息指的是智能体的位置，并根据该差值计算每个智能体与其邻居智能体之间总体的误差，这里总体误差指的是智能体与其邻居智能体之间状态误差之和；

S4、为每个智能体设置用于存放其当前误差、下一时刻误差和控制策略的经验池；

S5、设置用于评价智能体当前控制策略优劣的性能指标函数，该性能指标函数是通过S3中计算出的误差和当前智能体的控制策略计算得来，并用于在下一次迭代过程中更新控制策略；

S6、设计最优一致性控制策略的更新算法，首先根据每个智能体的控制策略及其与邻居节点的误差计算性能指标函数，然后以梯度更新的方式来计算得到每个智能体下一轮迭代的控制策略；

S7、使用神经网络来分别近似性能指标函数和控制策略，设置算法迭代的次数并重复执行S5中计算性能指标函数与控制策略的过程，当性能指标函数与控制策略都收敛到某一个值时，则算法执行完毕，所有智能体能够获得最优的控制策略。

进一步的，所述步骤S2领导者-跟随者的动力学方程包括：

x_i(k+1)＝Ax_i(k)+B_i(k),i＝1,2,...,N

x₀(k+1)＝Ax₀(k)

其中A∈R^p×p和B_i∈R^p×q为智能体的***矩阵，R^p×p表示***矩阵A的取值范围，R指的是实数域，p,q指的是矩阵的维度，并且是完全未知的，x_i(k)∈R^p和u_i(k)∈R^q分别是第i个智能体在第k时刻的状态和控制策略；x₀(k)∈R^p为领导者的状态信息，同时也作为跟随者智能体的一致性目标状态，每个智能体发送的信息包括自身的状态信息和控制策略，x_i(k)∈R^p和u_i(k)∈R^q分别是第i个智能体在第k时刻的状态信息和控制策略；其中k表示智能体的更新时刻。

进一步的，所述步骤S3智能体两两之间能够通过传感器获取状态信息的差值，并根据该差值计算每个智能体与其邻居智能体之间总体的误差。具体计算过程如下：

跟随者与领导者之间的状态误差可以描述为：x_i(k)-x₀(k)；

则***总体的状态误差为：

其中

_Np表示

的维度，

表示中间变量，为了便于问题的分析，定义第i个智能体的局部跟踪误差为：

其中b_i为牵制增益，即该智能体与领导者直接相连接，则b_i＝1，否则b_i＝0；a_ij表示第i个智能体与第j个智能体之间的连接权重，x_j(k)表示第j个智能体的状态向量，

表示第i个智能体的邻居智能体的集合，显然，若所有智能体的局部跟踪误差都趋于0后，则多智能体***达成一致性。

进一步的，所述步骤S4的经验池的容量是有限的，当经验池存放内容达到了上限，则会剔除掉存放时间最长的数据，将新生成的数据存入。

进一步的，所述步骤S5设置用于评价智能体当前控制策略优劣的性能指标函数，该性能指标函数是通过S3中计算出的误差和当前智能体的控制策略计算得来，并用于在下一次迭代过程中更新控制策略；性能指标函数定义为如下形式：

其中

为效用函数，其用来评价智能体在第k时刻控制策略，Q_ii≥0,R_ii≥0为正定的权重矩阵，为了方便后面的迭代计算，定义动作价值函数为

Q_i(e_i(k),u_i(k))＝r_i(e_i(k),u_i(k))+Q_i(e_i(k+1),u_i(k+1))。

进一步的，所述S6最优一致性控制策略的更新算法具体包括：

1、初始化迭代指数l＝0并为所有的智能体初始化一个可取的控制策略

这里可取的控制策略指的是控制策略能够让误差***稳定；

2、根据控制策略

和智能体当前时刻的局部邻居跟踪误差计算动作价值函数

3、对动作状态价值函数求梯度并更新控制策略

其中，α_i＞0为第i个智能体的学习率；

随着迭代的进行，若动作状态价值函数

和控制策略

都能够收敛到最优值，则智能体的学习过程完毕。

进一步的，所述步骤S7具体包括：

使用神经网络来分别近似性能指标函数和控制策略，使用了Actor-Critic神经网络框架来求解最优控制策略；其中Actor神经网络用于近似最优控制策略，Critic神经网络用于近似性能指标函数；

Actor神经网络的表达式为：

其中，

表示第i个智能体的Actor神经网络权重，σ_ai为激活函数；

Critic神经网络的表达式为：

其中，

表示第i个智能体的Critic神经网络权重，σ_ci为激活函数；

设置算法迭代的次数并重复执行S5中计算性能指标函数与控制策略的过程，当性能指标函数与控制策略都收敛到某一个值时，则算法执行完毕，多智能体***达到最优一致性。

进一步的，当多智能体***满足如下条件时，***中所有智能体达到最优一致性

lim_k→∞||e(k)||＝0

其中，

本发明的优点及有益效果如下：

1、本发明的多智能体***中***的具体模型信息是未知的，即智能体的状态向量在迭代过程中是无法通过计算获得的。这种未知***模型的情况，更符合复杂***所处于的场景，应用范围也更加广泛。最终，我们能以无模型强化学习来使得多智能体***达到最优一致性。

2、本发明要使用到了经验回放机制来存储智能体在交互过程中所产生的信息，包括它前后更新时刻的状态信息，当前的控制策略。经验回放机制不仅能够多次利用***产生的数据，提升数据效率，同时也可以打破数据之间的相关性，提升训练效果。

3、本发明多智能体***所采用的学习算法是基于策略梯度的，相较于传统的基于贪婪策略来优化控制策略的算法，基于策略梯度的学习算法能够以“软更新”的方式来更新控制策略，其所消耗的计算成本跟小，同时保证训练过程更加稳定。

4、基于发明经验池机制和策略梯度算法，智能体在学习过程中具有异策学习的特点，智能体能够以不同的行为策略对环境进行探索，具有更强的探索能力。

附图说明

图1是本发明提供优选实施例的***控制流程图；

图2是本发明实施例的***拓扑图；

图3是本发明实施例的智能体状态信息的演变图；

图4是本发明实施例的智能体误差向量第一维度的演变图。

图5是本发明实施例的智能体误差向量第二维度的演变图。

图6是本发明实施例的智能体控制输入的演变图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

一种基于策略梯度强化学习算法的多智能体最优一致性控制方法，该方法包括：

S1、假定智能体在通信的过程中不会受到环境的影响，导致通信拓扑发生变化。根据多智能体***中智能体之间的信息交互，确定***的拓扑结构，并且保证拓扑结构中包含一棵有向生成树。

S2、将多智能体***中的智能体分为两类，一类为领导者智能体，其不会接收到来自其邻居节点发送的信息，即对应着拓扑图中入度为0的节点；另一类为跟随者智能体，其会根据所接收到邻居智能体发送的信息对自身行为做出调整。

每个智能体发送的信息包括自身的状态信息和控制策略，第i个智能体的状态信息用x_i(k)表示，控制策略用u_i(k)表示，其中k表示智能体的更新时刻。

S3、智能体两两之间能够通过传感器获取状态信息的差值，并根据该差值计算每个智能体与其邻居智能体之间总体的误差。具体计算过程如下：

跟随者与领导者之间的状态误差可以描述为：x_i(k)-x₀(k)

则***总体的状态误差为：

其中

为了便于问题的分析，定义第i个智能体的局部跟踪误差为：

其中b_i为牵制增益，即该智能体与领导者直接相连接，则b_i＝1，否则b_i＝0。显然，若所有智能体的局部跟踪误差都趋于0后，则多智能体***达成一致性。

S4、为每个智能体设置用于存放其当前误差、下一时刻误差和控制策略的经验池。经验池的容量是有限的，当经验池存放内容达到了上限，则会剔除掉存放时间最长的数据，将新生成的数据存入。

S5、设置用于评价智能体当前控制策略优劣的性能指标函数，该性能指标函数是通过S3中计算出的误差和当前智能体的控制策略计算得来，并用于在下一次迭代过程中更新控制策略。性能指标函数定义为如下形式：

其中

为效用函数，其用来评价智能体在第k时刻控制策略。Q_ii≥0,R_ii≥0为正定的权重矩阵。为了方便后面的迭代计算，我们定义动作价值函数为

Q_i(e_i(k),u_i(k))＝r_i(e_i(k),u_i(k))+Q_i(e_i(k+1),u_i(k+1))

S6、设置最优一致性控制策略的更新算法，该算法会首先根据每个智能体的控制策略及其与邻居节点的误差计算性能指标函数，然后以梯度更新的方式来计算得到每个智能体下一轮迭代的控制策略。具体的计算过程如下：

2、根据控制策略

和智能体当前时刻的局部邻居跟踪误差计算动作价值函数

3、对动作状态价值函数求梯度并更新控制策略

其中，α_i＞0为第i个智能体的学习率。

随着迭代的进行，若动作状态价值函数

和控制策略

都能够收敛到最优值，则智能体的学习过程完毕。

S7、为了实现上述过程，使用神经网络来分别近似性能指标函数和控制策略，这里我们使用了Actor-Critic神经网络框架来求解最优控制策略。其中Actor神经网络用于近似最优控制策略，Critic神经网络用于近似性能指标函数。

Actor神经网络的表达式为：

其中，

表示第i个智能体的Actor神经网络权重，σ_ai为激活函数。

Critic神经网络的表达式为：

其中，

表示第i个智能体的Critic神经网络权重，σ_ci为激活函数。

本发明中，当多智能体***满足如下条件时，***中所有智能体达到最优一致性

lim_k→∞||e(k)||＝0

其中，

本实例考虑一个由N个跟随者智能体和1个领导者智能体组成的多智能体***。多智能体***的关系拓扑可以用一个有向加权图G＝(V,E,A)表示，每个智能体为无向加权图G＝(V,E,A)的一个节点，其中V＝{v₁,v₂,...,v_N+1}中表示节点的集合，E＝{a_ij＝(v_i,v_j):v_i,v_j∈V,i≠j}，A＝[a_ij]表示邻接矩阵，其中矩阵元素a_ij表示智能体节点i到j之间的连接权重。若节点i到j之间存在连接，则a_ij＞0；若节点i到j之间无连接，则a_ij＝0，规定a_ij＝0即***无自环。与节点i相连的节点为节点i的邻居节点，节点i的邻居节点用集合N_i＝{v_j∈V|(v_j,v_i)∈E}表示。对于跟随者智能体i，其入度表示为

则***节点的入度矩阵为D＝diag{d₁,...,d_N}。***的拓扑的拉普拉斯矩阵为L＝D-A＝[l_ij]∈R^N×N，其中l_ij＝-a_ij,i≠j,l_ii＝∑_i≠ja_ij。

为了验证所提出的基于策略梯度强化学习算法的多智能体最优一致性方法的效果，使用matlab进行仿真验证。本实例以图2为实验拓扑图，一个由5个节点组成的多智能体***，其中0号节点为领导者智能体，其他节点均为跟随者智能体，且领导者智能体只与1号节点之间存在直接相连的边。从拓扑中可以发现，1号节点可以间接的到达其他所有跟随者智能体，故该拓扑图中包含一棵有向生成树。考虑***的模型如下：

x₀(k+1)＝Ax₀(k)

x_i(k+1)＝Ax_i(k)+B_iu_i(k),i＝1,2,3,4

其中

在拓扑图中，非零边的权值为a₂₁＝a₃₁＝a₄₂＝a₄₃＝1,领导者的邻接矩阵为B＝diag{1,0,0,0}。随机初始化智能体的状态信息在[-1,1]之间，设置Actor神经网络和Critic神经网络的学习率均为α_ai＝α_ci＝0.01，且神经网络的初始权重均取自范围为[-1,1]之间的随机数。Critic神经网络的激活函数分别为

Actor神经网络的激活函数为σ_ai(z_ai(k))＝e_i(k)，且所有神经网络都至少训练300次。

如图3所示，展示了所有智能体状态信息的变化过程，从中不难看出所有智能体的状态最终都与领导者达成一致性，证明了算法的可行性。图4和图5分别给出了所有智能体的跟踪误差的演化过程，因为智能体的误差向量是二维的，因此，为了方便研究，这里我们将两个维度的误差的变化过程分开展示，可以看出两个维度的误差最终都能收敛到0，即所有的跟随者智能体与领导者智能体的状态信息达成一致。图6给出了智能体的控制输入的演化过程，可以看出所有智能体最终的控制输入都收敛到0，表明了所有智能体达成一致性，不再需要控制输入对状态进行调整。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。