WO2023109699A1

WO2023109699A1 - 一种多智能体的通信学习方法

Info

Publication number: WO2023109699A1
Application number: PCT/CN2022/138140
Authority: WO
Inventors: 代浩; 吴嘉澍; 王洋; 叶可江; 张锦霞; 须成忠
Original assignee: 深圳先进技术研究院
Priority date: 2021-12-17
Filing date: 2022-12-09
Publication date: 2023-06-22
Also published as: CN114298178A

Abstract

本发明公开了一种多智能体的通信学习方法，所述多智能体的通信学习方法包括：CriticNet、ActorNet、PriorNet 和EncoderNet，其中所述CriticNet 用于在训练阶段进行通信重要度的计算，并用于训练对应的在端设备上的三个网络，也就是所述ActorNet、所述PriorNet 和所述EncoderNet，其中所述ActorNet用于在智能体端选择对应的动作，作用于智能体端，在训练阶段和执行阶段均工作，所述ActorNet 在训练阶段需要学习出智能体的策略π，然后根据局部观测和收到的消息，生成对应的动作a^t _i，即是a^t _i=π(o^t _i，c^t _i)，其中c^t _i是智能体i 在t 时刻收到的消息，即是智能体j 的消息对于智能体i 的重要度，其中所述PriorNet用于智能体选择通信的对象，PriorNet 会对局部观测中观测到的智能体进行评价，并输出一个重要度值θ^j _i，其中所述EncoderNet 用于智能体编码自己的信息，以减少消息体的大小。

Description

一种多智能体的通信学习方法

技术领域

本发明涉及通信学习方法，尤其涉及一种多智能体的通信学习方法。

背景技术

在协作的多智体***中，所有协作的智能体只有一个全局的奖励函数，然而每个智能体的观测范围是有限的，因此在进行协同时缺乏全局的信息来进行感知或者决策，导致智能体之间出现互斥的决策，难以达到全局的最优。

作为一种先进的人工智能技术，深度强化学习(Deep Reinforcement Learning,DRL)在许多具有挑战性的现实问题中取得了巨大的成功。它被广泛地部署在不同的设备上，如智能车、智能手机、可穿戴设备、智能相机以及边缘网络中的其他智能对象。其中，协作多智能体强化学习则是DRL中更具有难度和更具有实际应用价值的一种范式，由于每个智能体只有局部的观测，缺少全局的信息，导致动作空间非常巨大，计算复杂；同时，由于只有一个全局的reward，导致难以分配对应的奖励到独立的智能体，以至于难以训练和保障收敛性。

为了解决这个难点，目前主流的多智体算法都采用了中心式训练和分布式执行(CTDE)的架构，训练时有全局信息，执行时只有agent本身的观测。这种架构在训练时存在一个critic网络，该网络根据所有agent的状态-动作组合更新critic和actor网络，执行时每个agent只有独立的actor网络，根据局部观测进行决策。典型的这类架构如IQL、QMIX等，都采用了训练时拥有全局信息，执行时则每个智能体都只能根据局部的信息进行决策。这些方法都将其他智能体看作环境的一部分进行建模，而自身只解决单智能体的问题，因此无法保证收敛性了，并且智能体会很容易陷入无止境的探索中。

因此，许多研究开始着眼于基于通信的多智能体强化学***稳的问题，促进智能体之间的协作。目前主流的方法有CommNet，在多个智能体的策略网络之间采用一个均值单元接收所有智能体的局部观察，生成消息后对所有智能体进行广播(星型的通信框架)；而TarMAC则是一种全联接的网络架构，所有的智能体之间均会进行消息的广播。星型和全联接的网络架构都是为了保证所有智能体产生的消息都不被遗漏，保证局部观测信息能够传播到所有的智能体上，让它们能拥有全局信息进行决策。

现有的通信学习方法虽然保证了所有的智能体都能够获得所有其他智能体的消息，但同时也带来了巨大的冗余信息。由于智能体之间的相关性不同，不相关的智能体之间的信息传递不仅是无用的，甚至可能会对智能体的决策作出负面的影响。

同时，冗余的信息传递也对边缘网络产生了巨大的考验，由于边缘网络结构复杂，且通信带宽资源有限，传统的通信学习方法往往难以应用到边缘环境中。而多智能体的强化学习的主要应用场景就是在边缘网络环境下，因此为了解决网络带宽和通信学习需要的资源之间的不匹配问题，本发明分析了其他智能体的消息对于当前智能体的影响，提出了一种用来刻画消息重要性的指标，并据此对智能体进行分组，通过分层传输的思路减少了网络通信量，实现了面向边缘网络深度强化学习的通信学习方法。

发明内容

本发明的一个优势在于提供一种多智能体的通信学习方法，其中所述多智能体的通信学习方法在多智能体之间引入了消息传递来传输局部的观测，以供让智能体在决策时充分考虑到全局的情况。

本发明的一个优势在于提供一种多智能体的通信学习方法，其中所述多智能体的通信学习方法设计了一个重要度排序指标和一个高效的分组算法来减少传递的消息量，实现高效的通信学习方法，以供有效降低不必要的消息带来的通信带宽消耗。

本发明的一个优势在于提供一种多智能体的通信学习方法，其中所述多智能体的通信学习方法可用于所有在边缘网络中进行多智体强化学习进行各种应用，如多智体智能驾驶、机器人导航、物流调度等。

本发明的一个优势在于提供一种多智能体的通信学习方法，其中所述多智能体的通信学习方法适用于需要多场景融合感知的场景，如多摄像头融合等场景。

本发明就上述技术问题而提出的技术方案如下：

本发明提供了一种多智能体的通信学习方法，包括：

CriticNet，其中所述CriticNet用于在训练阶段进行通信重要度的计算，并用于训练对应的在端设备上的三个网络，也就是所述ActorNet、所述PriorNet和所述EncoderNet；

ActorNet，其中所述ActorNet用于在智能体端选择对应的动作，作用于智能体端，在训练阶段和执行阶段均工作，所述ActorNet在训练阶段需要学习出智能体的策略π，然后根据局部观测和收到的消息，生成对应的动作

即是

其中

是智能体i在t时刻收到的消息，即是智能体j的消息对于智能体i的重要度；

PriorNet，其中所述PriorNet用于智能体选择通信的对象，PriorNet会对局部观测中观测到的智能体进行评价，并输出一个重要度值

和

EncoderNet，其中所述EncoderNet用于智能体编码自己的信息，以减少消息体的大小。

优选地，所述CriticNet运行在云端，仅在训练阶段工作，通过计算全局reward和通信优先级，所述CriticNet将计算网络损失并将梯度传递回其余网络，并更新其余网络参数。

优选地，当重要度值超过一定的阈值，表示当前智能体i需要获得智能体j的消息来进行决策。

优选地，所述智能体将自身之前的动作与观测一起进行编码，供其他智能体参考，提升合作的稳定性。

优选地，进一步包括重要度的计算方法，步骤如下：

步骤A：通过去除智能体j的消息，观察是否会导致ActorNet网络的输出的动作；

步骤B：由于ActorNet输出的动作是一个动作集合的分布，采用KL散度来计算智能体的ActorNet输出的动作分布之间的差异，具体的公式如下：

步骤C：其中o _{i}表示智能体i观测到的所有其余智能体的消息集合，o _{{i}\j}表示除了智能体j之外其余被观测到智能体的消息集合，该公式计算出的差异表示缺少智能体j的消息的决策分布和拥有智能体j的消息的决策分布是否一致；

步骤D：如果差异较大，则说明智能体j的消息对于i来说很重要，因此其通信置信度比较高；

步骤E：在计算出所有智能体的置信度之后，得到一个智能体之间的置信度矩阵M，通过这个置信度矩阵对智能体之间进行分组。

优选地，进一步包括分布式分组方法，PriorNet网络输出了两个值，分别是query和signature：signature向量是智能体本身的信息指纹，包含了智能体本身的位置和标号的编码；query向量则是查询信息，表示了智能体需要通信的智能体集合的编码。

优选地，进一步包括通信机制，通信机制包括握手阶段、选举阶段、通信阶段和决策阶段，其中在握手阶段时，所有的智能体会将query和signature向观测内的智能体广播出去，所有智能体在接收到query和signature后，通过向量之间相乘还原出通信的置信度矩阵，其中在选举阶段时，所有的智能体在计算出置信度矩阵后，计算出邻接图并选择出度最大的智能体为预设智能体，即是大部分的智能体都希望获得预设智能体的消息来决策，预设智能体作为leader节点，其中在通信阶段时，所有的非leader节点将自己的消息发送给leader节点，leader将收到的消息通过encoder网络进行编码，然后进行leader间的通信，leader将消息互相传递给其他leader之后，其中在决策阶段时，leader根据收到的其他leader消息进行决策，并将自己的决策和消息发送到同一组内的其他非leader智能体上，其他智能体则据此进行下一步决策。

相较于目前主流的方法，如星形和全联接形，本发明的有益效果是：

1.全联接和星形通信网络都无视了消息本身对于智能体的决策的影响，收到不恰当的消息可能会影响智能体的收敛，进而影响全局奖励的最大化。本发明提出了使用KL散度来衡量消息的重要性，保证了只传递有效的信息，避免了冗余的消息传递，提升了收敛速率。

2.全联接和星形通信网络都需要大量的端对端连接，本发明则采用了分组并选举leader的方式来进行通信，大大减少了通信的链路，降低了通信带宽的消耗。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的多智能体通信学习方法的网络示意图。

图2为本发明提供的多智能体通信学习方法的谱聚类示意图。

图3为本发明提供的多智能体通信学习方法的智能体分组通信。

图4为本发明提供的多智能体通信学习方法的合作智能体的全局奖励得到了提升。

图5为本发明提供的多智能体通信学习方法的多智体之间的通信量。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

典型的分布式边缘计算架构为多个边缘设备(“Device”表示)组成，假设存在有N个边缘设备，每个设备i可以看作一个智能体，智能体之间可以通过WIFI、5G等网络互相连通，并且有着有限的算力和带宽资源。每个智能体都有一个动作集A，在每个时间t智能体i有自己局部的观测oit,智能体根据自己的观测oit和动作策略来选择下一步的动作并执行，即是

同时，当所有的智能体都做出了对应的动作，所有的智能体都可以获得一个全局的奖励值r＝env(a ₀，a ₁，...，a _n)。

协作的多智能体***的目标是最大化该全局奖励r的累积值，因此所有的agent需要通过消息传递来掌握所关注的全局信息，实现协同的决策。

本发明遵循CTDE的架构，在训练阶段保持着全面的信息互通，而在执行阶段则根据训练的通信网络进行信息编码和通信对象选择。

如图1所示，本发明的多智能体通信学习方法包括CriticNet、ActorNet、PriorNet和EncoderNet，其中所述CriticNet用于在训练阶段进行通信重要度的计算，并用于训练对应的在端设备上的三个网络，也就是所述ActorNet、所述PriorNet和所述EncoderNet，进一步的，所述CriticNet运行在云端，仅在训练阶段工作，通过计算全局reward和通信优先级，所述CriticNet将计算网络损失并将梯度传递回其余网络，并更新其余网络参数，其中所述ActorNet用于在智能体端选择对应的动作，作用于智能体端，在训练阶段和执行阶段均工作，所述ActorNet在训练阶段需要学习出智能体的策略π，然后根据局部观测和收到的消息，生成对应的动作

即是

其中

是智能体i在t时刻收到的消息，其中所述PriorNet用于智能体选择通信的对象，PriorNet会对局部观测中观测到的智能体进行评价，并输出一个重要度值

即是智能体j的消息对于智能体i的重要度，当重要度值超过一定的阈值，表示当前智能体i需要获得智能体j的消息来进行决策，其中所述EncoderNet用于智能体编码自己的信息，由于智能体对环境的观测是低维且稀疏的，需要通过一个编码网络对其转换为高维表示，以减少消息体的大小，此外，除了观测信息以外，智能体还要将自身之前的动作与观测一起进行编码，供其他智能体参考，提升合作的稳定性。

对于策略网络所述ActorNet，以及对应的奖励loss，本发明的多智能体通信学习方法使用交叉熵损失函数作为误差，通过梯度下降法作为参数更新的手段。

进一步的，本发明的多智能体通信学习方法在于如何选择智能体的通信对象以及通信的交互方式。

本发明对于重要度的计算方法，即是如何给智能体i观测到其余智能体进行加权，分配通信的执行度，步骤如下：

值得注意的是，该网络需要多次计算ActorNet的输出，所以只能在训练阶段进行计算，同时该计算结果将作为PriorNet的监督信号来训练该网络，这样在执行阶段并不需要重复计算即可直接通过PriorNet计算出其通信置信度。

如下图所示，为示例矩阵M，所述矩阵M是比较稀疏的，这说明大部分智能体之间是不需要通信的，可以通过谱聚类算法来将智能体之间进行分组。谱聚类是从图论中演化出来的算法，后来在聚类中得到了广泛的应用。它的主要思想是把所有的数据看做空间中的点，这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低，而距离较近的两个点之间的边权重值较高，通过对所有数据点组成的图进行切图，让切图后不同的子图间边权重和尽可能的低，而子图内的边权重和尽可能的高，从而达到聚类的目的。

如图3所示，通过该聚类算法，可以使每个组内之间的通信比较稠密，而组间的通信则比较稀疏。

由于在执行阶段，智能体之间以分布式的方式进行通信，并没有中心节点帮助进行分组，因此本发明提出了一种分布式的分组方法。本发明让PriorNet网络输出了两个值，分别是query和signature：signature向量是智能体本身的信息指纹，包含了智能体本身的位置和标号的编码；query向量则是查询信息，表示了智能体需要通信的智能体集合的编码。

进一步的，本发明的通信机制包括握手阶段、选举阶段、通信阶段和决策阶段，其中在握手阶段时，所有的智能体会将query和signature向观测内的智能体广播出去，所有智能体在接收到query和signature后，通过向量之间相乘可以还原出通信的置信度矩阵，其中在选举阶段时，所有的智能体在计算出置信度矩阵后，计算出邻接图并选择出度最大的智能体，即是大部分的智能体都希望获得该智能体的消息来决策，因此它可以作为leader节点，其中在通信阶段时，所有的非leader节点将自己的消息发送给leader节点，leader将收到的消息通过encoder网络进行编码，然后进行leader间的通信，leader将消息互相传递给其他leader之后，其中在决策阶段时，leader根据收到的其他leader消息进行决策，并将自己的决策和消息发送到同一组内的其他非leader智能体上，其他智能体则据此进行下一步决策。

通过上述分组的通信模式，本发明有效降低通信的成本，减少通信链路，实现高效的多智体强化学习的通信学习，从而实现在多智能体中通过KL散度来计算和衡量消息的重要度；通过对置信度矩阵使用谱聚类算法来实现智能体的分组，从而减少通信链路；通过图的出度来进行组内的选举，从中选出leader节点来实现组间的通信，减少通信量。

如图4所示，本发明经过了充分的实验证明可行，在openai开源的多智体强化学习环境中进行了验证，可以发现本发明能够帮助提升多智体之间的合作，最大化全局奖励。

如图5所示，本发明的通信量将会随着训练的逐步稳定降低下来，最开始智能体之间学会了通过通信来提升合作，因此通信量快速上升，而随着训练的继续，分组方法开始工作，将通信量逐步降低。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种多智能体的通信学习方法，其特征在于，包括：

CriticNet，其中所述CriticNet用于在训练阶段进行通信重要度的计算，并用于训练对应的在端设备上的三个网络，也就是所述ActorNet、所述PriorNet和所述EncoderNet；

ActorNet，其中所述ActorNet用于在智能体端选择对应的动作，作用于智能体端，在训练阶段和执行阶段均工作，所述ActorNet在训练阶段需要学习出智能体的策略π，然后根据局部观测和收到的消息，生成对应的动作
即是
其中
是智能体i在t时刻收到的消息，即是智能体j的消息对于智能体i的重要度；

PriorNet，其中所述PriorNet用于智能体选择通信的对象，PriorNet会对局部观测中观测到的智能体进行评价，并输出一个重要度值
和

EncoderNet，其中所述EncoderNet用于智能体编码自己的信息，以减少消息体的大小。
如权利要求1所述的，其特征在于，所述CriticNet运行在云端，仅在训练阶段工作，通过计算全局reward和通信优先级，所述CriticNet将计算网络损失并将梯度传递回其余网络，并更新其余网络参数。
如权利要求1所述的，其特征在于，当重要度值超过一定的阈值，表示当前智能体i需要获得智能体j的消息来进行决策。
如权利要求1所述的，其特征在于，所述智能体将自身之前的动作与观测一起进行编码，供其他智能体参考，提升合作的稳定性。
如权利要求1所述的，其特征在于，进一步包括重要度的计算方法，步骤如下：

步骤A：通过去除智能体j的消息，观察是否会导致ActorNet网络的输出的动作；

步骤B：由于ActorNet输出的动作是一个动作集合的分布，采用KL散度来计算智能体的ActorNet输出的动作分布之间的差异，具体的公式如下：

步骤C：其中o _{i}表示智能体i观测到的所有其余智能体的消息集合，

o _{{i}\j}表示除了智能体j之外其余被观测到智能体的消息集合，该公式计算出的差异表示缺少智能体j的消息的决策分布和拥有智能体j的消息的决策分布是否一致；

步骤D：如果差异较大，则说明智能体j的消息对于i来说很重要，因此其通信置信度比较高；

步骤E：在计算出所有智能体的置信度之后，得到一个智能体之间的置信度矩阵M，通过这个置信度矩阵对智能体之间进行分组。
如权利要求1所述的，其特征在于，进一步包括分布式分组方法，PriorNet网络输出了两个值，分别是query和signature：signature向量是智能体本身的信息指纹，包含了智能体本身的位置和标号的编码；query向量则是查询信息，表示了智能体需要通信的智能体集合的编码。
如权利要求6所述的，其特征在于，进一步包括通信机制，通信机制包括握手阶段、选举阶段、通信阶段和决策阶段，其中在握手阶段时，所有的智能体会将query和signature向观测内的智能体广播出去，所有智能体在接收到query和signature后，通过向量之间相乘还原出通信的置信度矩阵，其中在选举阶段时，所有的智能体在计算出置信度矩阵后，计算出邻接图并选择出度最大的智能体为预设智能体，即是大部分的智能体都希望获得预设智能体的消息来决策，预设智能体作为leader节点，其中在通信阶段时，所有的非leader节点将自己的消息发送给leader节点，leader将收到的消息通过encoder网络进行编码，然后进行leader间的通信，leader将消息互相传递给其他leader之后，其中在决策阶段时，leader根据收到的其他leader消息进行决策，并将自己的决策和消息发送到同一组内的其他非leader智能体上，其他智能体则据此进行下一步决策。