CN113392935B

CN113392935B - 基于注意力机制的多智能体深度强化学习策略优化方法

Info

Publication number: CN113392935B
Application number: CN202110777110.9A
Authority: CN
Inventors: 陈晋音; 胡书隆; 王雪柯; 章燕
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2023-05-30
Anticipated expiration: 2041-07-09
Also published as: CN113392935A

Abstract

本发明公开了一种基于注意力机制的多智能体深度强化学习策略优化方法，所述方法包括如下步骤：搭建多智能体强化学习协作模拟场景，并利用深度确定性策略梯度算法训练多智能体；个性生成器利用概率分类器对智能体观察到的图片的概率分布进行预测，对概率分布器进行训练，使得概率分布器区分智能体更加准确，从而使得智能体的个性逐渐显现；获取每个时间步智能体观察到的图片的特征信息并正则化奖励折扣因子，将得到的奖励折扣因子更新至个性生成器中的奖励函数得到新设置的奖励函数；将新设置的奖励函数更新至深度确定性策略梯度算法的多智能体强化学习框架中对多智能体进行训练，直至多智能体达到收敛。

Description

基于注意力机制的多智能体深度强化学习策略优化方法

技术领域

本发明涉及深度强化学习的防御领域，特别涉及一种基于注意力机制的多智能体深度强化学习策略优化方法。

背景技术

深度强化学习是近年来人工智能备受关注的方向之一，随着强化学习的快速发展和应用，强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。

深度强化学习算法较多应用于单智能体场景，在单智能体强化学习中，智能体所在的环境是稳定不变的，但是在多智能体强化(MARL)学习中，环境是复杂的、动态的，每个智能体的动作都会对其余智能体的动作选择造成影响，多智能体强化学习存在维度***、奖励函数确定困难，以及环境不稳定的问题，因此给学习过程带来很大的困难；同时在多智能体***中智能体之间可能涉及到合作与竞争等关系目标奖励确定困难，由于多智能体***中每个智能体的任务可能不同，但是彼此之间又相互耦合影响，所以奖励设计的优劣将直接影响学习到的策略的好坏。

多智能体强化学习现已广泛应用在于多智能体协作场景，但人们普遍观察到当智能体是同等的，且具有共享的全局奖励时，在共同训练阶段智能体都学习相似的行为；然而，学习类似的行为很容易使学习到的策略陷入局部最优。一些研究则有意通过多样性追求代理策略的差异，然而诱导的差异与任务的成功并没有直接的联系。相反，个性的出现以及学习合作可以自动驱动代理人采取不同的行为，并在需要时扮演不同的角色，以成功完成任务。

在现有的多智能体深度强化学习算法中，智能体可能会选择偏向易于完成目标任务的动作，即智能体可能会倾向于完成容易的任务，导致复杂的任务只有很少的智能体甚至无智能体完成，最终使整个多智能体场景陷入局部最优的情况，从而导致整个全局奖励的降低。在实践中，由于强化学习代理大多是同等的，通过在与环境交互的策略学习过程中，应该让代理能够发展个性；因此在多智能体环境中，智能体通过分别探索环境并与环境交互，个性应该从它们的经历中显现出来。

发明内容

为解决现有技术中存在的问题，本发明提供一种基于注意力机制的多智能体深度强化学习策略优化方法，达到了使各个智能体能够充分发挥其个性化，更好地完成各自的任务，从而达到全局奖励的最优的目的。

一种基于注意力机制的多智能体深度强化学习策略优化方法，所述方法包括如下步骤：

搭建多智能体强化学习协作模拟场景，并利用深度确定性策略梯度算法训练多智能体；

个性生成器利用概率分类器对智能体观察到的图片的概率分布进行预测，利用带有奖励折扣因子的奖励函数对概率分布器进行训练，使得概率分布器区分智能体更加准确，从而使得智能体的个性逐渐显现；

利用图像注意力机制获取每个时间步智能体观察到的图片的特征信息并正则化奖励折扣因子，当特征信息集中在智能体对应任务附近时，给予智能体一个正奖励折扣因子，当特征信息不在智能体对应任务附近时，给予智能体一个负奖励折扣因子；

将得到的奖励折扣因子更新至个性生成器中的奖励函数得到新设置的奖励函数；将新设置的奖励函数更新至深度确定性策略梯度算法的多智能体强化学习框架中对多智能体进行训练，直至多智能体达到收敛。

所述利用深度确定性策略梯度算法多智能体的训练步骤如下：

初始化动作探索的一个随机进程N，获得初始状态x；

对每个智能体i，对当前的策略和探索过程选择动作

其中o_i表示智能体i在t时刻的观测，N_t表示在t时刻的探索，θ_i表示Actor网络的参数，

表示状态空间到动作空间的映射；

执行动作a＝(a₁,a₂...a_N)，并观察所获得的奖励r和下一个状态x'；

各个Actor收集当前状态、动作以及下一个状态(x,a,r,x')存入经验回放池；

从经验回放池中随机抽样小批量样本S(x^j,a^j,r^j,x'^j)，其中j表示某个时刻；

设置奖励函数：

其中，Q_i ^μ'表示在j的下一个时刻下智能体i的Q值函数，a'_k角标表示下一个k时刻通过观察所得到的动作；r_i ^j表示在j时刻下智能体i的奖励值，γ为奖励折扣因子，x'^j为j时刻的下一个状态，(a'₁,....a'_N)为动作a＝(a₁,a₂...a_N)的下一个动作；

通过最小化奖励函数的loss来更新Critic网络：

其中，x^j为j时刻的状态，

为j时刻的动作，/>

表示在j时刻下智能体i的Q值函数；

利用采样数据计算的策略梯度来更新Actor网络：

其中，

为智能体i在j时刻的观测，x^j为j时刻的状态，/>

为j时刻的动作；

令θ_i'为每个智能体i更新目标网络参数，其中τ∈(0,1)为随机参数：

θ′_i←τθ_i+(1-τ)θ′_i

同时，训练过程中，多智能体中的每个智能体各自与环境交互得到经验数据一次获得每个智能体的策略。

对深度确定性策略梯度算法需进行训练，训练步骤如下：

各Actor网络收集数据并存入缓冲池，当缓冲池的阈值大于预设的阈值时，开始学习；

利用Actor网络更新策略参数，利用Critic网络更新动作值参数并对Critic网络进行更新。

优选的，所述个性生成器的训练过程如下：

从缓冲池中进行小批量随机采样，并利用概率分类器计算交叉熵；

通过最小化交叉熵更新分类神经网络参数；

利用新的神经网络参数设置新的奖励函数。

所述概率分类器表示为：

P(i)＝C(i|O_i)

其中：C(i/O_i)是每个智能体i根据其观测O_i所得到的任务分类概率，P(i)表示预测概率；

所述交叉熵的计算公式表示如下：

CE＝-∑Z(i)log P(i)

其中，Z(i)为真实分类概率；

所述分类神经网络参数的更新公式表示如下：

其中，

为分类神经网络参数；

所述新的奖励函数表示如下：

其中，R_i表示智能体的i的奖励值，γ为奖励折扣因子。

优选的，正则化奖励折扣因子的步骤如下：

利用Grad-CAM获取智能体i在t时刻观测

的特征信息：

计算概率分类器网络最后一层softmax输出的概率p对最后一层特征图所有像素的偏导数：

其中，i是智能体的序号,A是最后一层卷积输出的特征图，k是特征图的通道维度的序号，h和w分别是高宽维度的序号；

将特征图每个像素的偏导数求出来后，取一次宽高维度上的全局平均：

将上一步所得到的i类相对于最后一层卷积层输出的特征图的第k个通道的敏感程度当作权重将最后一层特征图加权，并进行线性组合，再送入ReLU激活函数处理：

对得到的Grad-CAM热力图进行特性信息分析，若智能体i₁所观测到的热力图特征信息显示集中在其对应的任务t_i附近，则给予智能体一个正向奖励：

γ＝(1-λ)r

其中λ智能体与对应任务经归一化处理后的距离，r表示智能体i完成任务所获得的即时奖励，此时奖励折扣因子γ为正；

若智能体i₁所观测到的特征信息不在其对应的任务t_i周围，或所观测到的特征信息与其他智能体所对应的子任务相关，则给予智能体一个负奖励：

γ＝-(1-λ)r

即离非本任务越近，所获得的负奖励越高，奖励折扣因子γ为负。

与现有技术相比，本发明的有益之处在于：

(1)利用个性生成器使每个智能体的个性在训练过程中能得到体现；将个性生成器中的分类概率与基于注意力机制得到的加权奖励正则化奖励函数；设置的奖励函数根据每个智能体不同的任务进行修改，从而每个智能体都对应一个不同的奖励函数；新设置的奖励函数适用于深度确定性策略梯度算法，到了优化了训练策略，使全局奖励能够更快达到最优的目的。

附图说明

图1为本发明提供的基于注意力机制的多智能体深度强化学习策略优化方法的流程示意图；

图2为本发明提供的利用深度确定性策略梯度算法训练多智能体的示意图；

图3为本发明提供的奖励函数设置流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

本实施例提供的基于注意力机制的多智能体深度强化学习策略优化方法，使用个性生成器首先学习一个概率分类器，该分类器预测给定观察的代理上的概率分布，然后给每个代理一个被分类器正确预测概率的内在奖励；受到内在回报的鼓励，代理倾向于访问它们自己熟悉的观察结果；通过这样的观察学习概率分类器使得内在的奖励信号更强，并且反过来使得代理更加可识别。由于在早期学习阶段，不同主体访问的观察结果不能被分类器轻易区分，内在奖励信号不足以诱导主体特征，因此采用基于注意力机制的正则化器来学习分类器，以增加区分度，增强反馈，从而促进个性的出现。

图1为本实施例提供的基于注意力机制的多智能体深度强化学习策略优化方法的流程示意图，基于注意力机制的多智能体深度强化学习策略优化方法可用于游戏场景中，用于训练游戏场景达到全局最优的状态。

如图1-3所示，基于注意力机制的多智能体深度强化学习策略优化方法的步骤如下：

(1)多智能体集中训练过程

(1.1)搭建多智能体强化学习协作模拟场景；

(1.2)基于多智能体强化学习中的深度确定性策略梯度算法的多智能体强化学习框架训练多智能体；

(1.2.1)初始化动作探索的一个随机进程N，获得初始状态x；

(1.2.2)对每个智能体i，对当前的策略和探索过程选择动作

表示状态空间到动作空间的映射；

(1.2.3)执行动作a＝(a₁,a₂...a_N)，并观察所获得的奖励r和下一个状态'x′；

(1.2.4)各个Actor收集当前状态、动作以及下一个状态(x,a,r,x')存入经验回放池；

(1.2.5)从经验回放池中随机抽样小批量样本S(x^j,a^j,r^j,x'^j)，其中j表示某个时刻；

(1.2.6)设置奖励函数：

其中，Q_i ^μ'表示在j的下一个时刻下智能体i的Q值函数，a'_k角标表示下一个k时刻通过观察所得到的动作；r_i ^j表示在j时刻下智能体i的奖励值，γ为奖励折扣因子，x'^j为j时刻的下一个状态，(a′₁,....a′_N)为动作a＝(a₁,a₂...a_N)的下一个动作；

(1.2.7)通过最小化奖励函数的loss来更新Critic网络：

其中，x^j为j时刻的状态，

为j时刻的动作，/>

表示在j时刻下智能体i的Q值函数；

(1.2.8)利用采样数据计算的策略梯度来更新Actor网络：

其中，

为智能体i在j时刻的观测，x^j为j时刻的状态，/>

为j时刻的动作；

(1.2.9)令θ′_i为每个智能体i更新目标网络参数，其中τ∈(0,1)为随机参数：

θ′_i←τθ_i+(1-τ)θ′_i；

(1.3)训练过程中，智能体各自与环境进行交互以得到经验数据，以此获得每个智能体的策略；

(1.4)各个Actor网络收集数据并存入缓冲池，当缓冲池数量大于预设阈值时，开始学习；

(1.5)利用Actor网络更新策略参数，利用Critic网络更新动作值参数并对Critic网络进行更新。

(2)个性生成器训练过程

(2.1)个性生成器利用一个概率分类器C(i/O_i)来预测智能体观察到的概率分布，每个智能体将正确预测的概率作为每个时间步长的内在回报；

(2.2)设置每个智能体的奖励函数为R_i+γC(i/O_i)，其中R_i是每个智能体i获得全局奖励，C(i/O_i)是每个智能体i根据其观测O_i所得到的任务分类概率，而γ是加权内在奖励的调整参数；

(2.3)智能体策略之间存在的初始差异由C(i/O_i)获取，这种差异作为一种内在的奖励被反馈给每个智能体。

(2.4)分类器C(i/O_i)由神经网络

参数化，并以监督方式学习。在每个时间步t，将每个代理i的观测O_i作为输入，智能体的标号i作为标签，并将(i,O_i)对存储到新的缓冲区B中；

(2.5)通过最小化交叉熵损失(CE)来更新

交叉熵损失基于观测缓冲区B的均匀采样批次计算；

(2.6)随着每个智能体期望收益的最大化，智能体策略的差异随着环境奖励的优化而加剧；

(2.7)随着智能体的行为越来越可识别，分类器可以更准确地区分智能体，从而个性逐渐显现。

(3)引入图像注意力机制正则化奖励折扣因子γ

(3.1)由于每个智能体i在每个时间步的观测O_i都是一帧一帧的图像数据，利用Grad-CAM获取每个时间步观测O_i的特征信息；

(3.2)若智能体i₁所观测到的特征信息集中在其对应的任务t_i附近，则给予智能体一个正向奖励γ＝(1-λ)r，其中λ为智能体与对应任务经归一化处理后的距离，r表示智能体i完成任务所获得的即时奖励，即离所要完成的任务越近，所获得的正奖励越高，奖励折扣因子γ为正；

(3.3)若智能体i₁所观测到的特征信息不在其对应的任务t_i周围，或所观测到的特征信息与其他智能体所对应的子任务相关，则给予智能体一个负奖励γ＝-(1-λ)r，即离非本任务越近，所获得的负奖励越高，奖励折扣因子γ为负。

(3.4)将参数λ更新至个性生成器中设置的奖励函数；

(3.5)将新设置的奖励函数更新至深度确定性策略梯度算法中训练，直至算法收敛并且智能体的个性化得到体现。

Claims

1.一种基于注意力机制的多智能体深度强化学习策略优化方法，其特征在于，所述方法包括如下步骤：

利用图像注意力机制获取每个时间步智能体观察到的图片的特征信息以及正则化奖励折扣因子，即利用Grad-CAM获取智能体在时刻观测的特征信息，计算概率分类器网络最后一层softmax输出的概率对最后一层特征图所有像素的偏导数，再取一次宽高维度上的全局平均，将上一步所得到的i类相对于最后一层卷积层输出的特征图的第i个通道的敏感程度当作权重将最后一层特征图加权，并进行线性组合，再送入ReLU激活函数处理，当特征信息集中在智能体对应任务附近时，给予智能体一个正奖励折扣因子，当特征信息不在智能体对应任务附近时，给予智能体一个负奖励折扣因子；将得到的奖励折扣因子更新至个性生成器中的奖励函数得到新设置的奖励函数；将新设置的奖励函数更新至深度确定性策略梯度算法的多智能体强化学习框架中对多智能体进行训练，直至多智能体达到收敛；

基于注意力机制的多智能体深度强化学习策略优化方法用于游戏场景中，以训练游戏场景达到全局最优的状态。

2.根据权利要求1所述的基于注意力机制的多智能体深度强化学习策略优化方法，其特征在于，所述利用深度确定性策略梯度算法多智能体的训练步骤如下：

初始化动作探索的一个随机进程N，获得初始状态x；

对每个智能体i，对当前的策略和探索过程选择动作