CN113392935B - 基于注意力机制的多智能体深度强化学习策略优化方法 - Google Patents

基于注意力机制的多智能体深度强化学习策略优化方法 Download PDF

Info

Publication number
CN113392935B
CN113392935B CN202110777110.9A CN202110777110A CN113392935B CN 113392935 B CN113392935 B CN 113392935B CN 202110777110 A CN202110777110 A CN 202110777110A CN 113392935 B CN113392935 B CN 113392935B
Authority
CN
China
Prior art keywords
agent
probability
reinforcement learning
rewarding
updating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110777110.9A
Other languages
English (en)
Other versions
CN113392935A (zh
Inventor
陈晋音
胡书隆
王雪柯
章燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110777110.9A priority Critical patent/CN113392935B/zh
Publication of CN113392935A publication Critical patent/CN113392935A/zh
Application granted granted Critical
Publication of CN113392935B publication Critical patent/CN113392935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于注意力机制的多智能体深度强化学习策略优化方法,所述方法包括如下步骤:搭建多智能体强化学习协作模拟场景,并利用深度确定性策略梯度算法训练多智能体;个性生成器利用概率分类器对智能体观察到的图片的概率分布进行预测,对概率分布器进行训练,使得概率分布器区分智能体更加准确,从而使得智能体的个性逐渐显现;获取每个时间步智能体观察到的图片的特征信息并正则化奖励折扣因子,将得到的奖励折扣因子更新至个性生成器中的奖励函数得到新设置的奖励函数;将新设置的奖励函数更新至深度确定性策略梯度算法的多智能体强化学习框架中对多智能体进行训练,直至多智能体达到收敛。

Description

基于注意力机制的多智能体深度强化学习策略优化方法
技术领域
本发明涉及深度强化学习的防御领域,特别涉及一种基于注意力机制的多智能体深度强化学习策略优化方法。
背景技术
深度强化学习是近年来人工智能备受关注的方向之一,随着强化学习的快速发展和应用,强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。
深度强化学习算法较多应用于单智能体场景,在单智能体强化学习中,智能体所在的环境是稳定不变的,但是在多智能体强化(MARL)学习中,环境是复杂的、动态的,每个智能体的动作都会对其余智能体的动作选择造成影响,多智能体强化学习存在维度***、奖励函数确定困难,以及环境不稳定的问题,因此给学习过程带来很大的困难;同时在多智能体***中智能体之间可能涉及到合作与竞争等关系目标奖励确定困难,由于多智能体***中每个智能体的任务可能不同,但是彼此之间又相互耦合影响,所以奖励设计的优劣将直接影响学习到的策略的好坏。
多智能体强化学习现已广泛应用在于多智能体协作场景,但人们普遍观察到当智能体是同等的,且具有共享的全局奖励时,在共同训练阶段智能体都学习相似的行为;然而,学习类似的行为很容易使学习到的策略陷入局部最优。一些研究则有意通过多样性追求代理策略的差异,然而诱导的差异与任务的成功并没有直接的联系。相反,个性的出现以及学习合作可以自动驱动代理人采取不同的行为,并在需要时扮演不同的角色,以成功完成任务。
在现有的多智能体深度强化学习算法中,智能体可能会选择偏向易于完成目标任务的动作,即智能体可能会倾向于完成容易的任务,导致复杂的任务只有很少的智能体甚至无智能体完成,最终使整个多智能体场景陷入局部最优的情况,从而导致整个全局奖励的降低。在实践中,由于强化学习代理大多是同等的,通过在与环境交互的策略学习过程中,应该让代理能够发展个性;因此在多智能体环境中,智能体通过分别探索环境并与环境交互,个性应该从它们的经历中显现出来。
发明内容
为解决现有技术中存在的问题,本发明提供一种基于注意力机制的多智能体深度强化学习策略优化方法,达到了使各个智能体能够充分发挥其个性化,更好地完成各自的任务,从而达到全局奖励的最优的目的。
一种基于注意力机制的多智能体深度强化学习策略优化方法,所述方法包括如下步骤:
搭建多智能体强化学习协作模拟场景,并利用深度确定性策略梯度算法训练多智能体;
个性生成器利用概率分类器对智能体观察到的图片的概率分布进行预测,利用带有奖励折扣因子的奖励函数对概率分布器进行训练,使得概率分布器区分智能体更加准确,从而使得智能体的个性逐渐显现;
利用图像注意力机制获取每个时间步智能体观察到的图片的特征信息并正则化奖励折扣因子,当特征信息集中在智能体对应任务附近时,给予智能体一个正奖励折扣因子,当特征信息不在智能体对应任务附近时,给予智能体一个负奖励折扣因子;
将得到的奖励折扣因子更新至个性生成器中的奖励函数得到新设置的奖励函数;将新设置的奖励函数更新至深度确定性策略梯度算法的多智能体强化学习框架中对多智能体进行训练,直至多智能体达到收敛。
所述利用深度确定性策略梯度算法多智能体的训练步骤如下:
初始化动作探索的一个随机进程N,获得初始状态x;
对每个智能体i,对当前的策略和探索过程选择动作
Figure BDA0003155972800000021
其中oi表示智能体i在t时刻的观测,Nt表示在t时刻的探索,θi表示Actor网络的参数,
Figure BDA0003155972800000022
表示状态空间到动作空间的映射;
执行动作a=(a1,a2...aN),并观察所获得的奖励r和下一个状态x';
各个Actor收集当前状态、动作以及下一个状态(x,a,r,x')存入经验回放池;
从经验回放池中随机抽样小批量样本S(xj,aj,rj,x'j),其中j表示某个时刻;
设置奖励函数:
Figure BDA0003155972800000031
其中,Qi μ'表示在j的下一个时刻下智能体i的Q值函数,a'k角标表示下一个k时刻通过观察所得到的动作;ri j表示在j时刻下智能体i的奖励值,γ为奖励折扣因子,x'j为j时刻的下一个状态,(a'1,....a'N)为动作a=(a1,a2...aN)的下一个动作;
通过最小化奖励函数的loss来更新Critic网络:
Figure BDA0003155972800000032
其中,xj为j时刻的状态,
Figure BDA0003155972800000033
为j时刻的动作,/>
Figure BDA0003155972800000037
表示在j时刻下智能体i的Q值函数;
利用采样数据计算的策略梯度来更新Actor网络:
Figure BDA0003155972800000034
其中,
Figure BDA0003155972800000035
为智能体i在j时刻的观测,xj为j时刻的状态,/>
Figure BDA0003155972800000036
为j时刻的动作;
令θi'为每个智能体i更新目标网络参数,其中τ∈(0,1)为随机参数:
θ′i←τθi+(1-τ)θ′i
同时,训练过程中,多智能体中的每个智能体各自与环境交互得到经验数据一次获得每个智能体的策略。
对深度确定性策略梯度算法需进行训练,训练步骤如下:
各Actor网络收集数据并存入缓冲池,当缓冲池的阈值大于预设的阈值时,开始学习;
利用Actor网络更新策略参数,利用Critic网络更新动作值参数并对Critic网络进行更新。
优选的,所述个性生成器的训练过程如下:
从缓冲池中进行小批量随机采样,并利用概率分类器计算交叉熵;
通过最小化交叉熵更新分类神经网络参数;
利用新的神经网络参数设置新的奖励函数。
所述概率分类器表示为:
P(i)=C(i|Oi)
其中:C(i/Oi)是每个智能体i根据其观测Oi所得到的任务分类概率,P(i)表示预测概率;
所述交叉熵的计算公式表示如下:
CE=-∑Z(i)log P(i)
其中,Z(i)为真实分类概率;
所述分类神经网络参数的更新公式表示如下:
Figure BDA0003155972800000041
其中,
Figure BDA0003155972800000042
为分类神经网络参数;
所述新的奖励函数表示如下:
Figure BDA0003155972800000043
其中,Ri表示智能体的i的奖励值,γ为奖励折扣因子。
优选的,正则化奖励折扣因子的步骤如下:
利用Grad-CAM获取智能体i在t时刻观测
Figure BDA0003155972800000044
的特征信息:
计算概率分类器网络最后一层softmax输出的概率p对最后一层特征图所有像素的偏导数:
Figure BDA0003155972800000045
其中,i是智能体的序号,A是最后一层卷积输出的特征图,k是特征图的通道维度的序号,h和w分别是高宽维度的序号;
将特征图每个像素的偏导数求出来后,取一次宽高维度上的全局平均:
Figure BDA0003155972800000051
将上一步所得到的i类相对于最后一层卷积层输出的特征图的第k个通道的敏感程度当作权重将最后一层特征图加权,并进行线性组合,再送入ReLU激活函数处理:
Figure BDA0003155972800000052
对得到的Grad-CAM热力图进行特性信息分析,若智能体i1所观测到的热力图特征信息显示集中在其对应的任务ti附近,则给予智能体一个正向奖励:
γ=(1-λ)r
其中λ智能体与对应任务经归一化处理后的距离,r表示智能体i完成任务所获得的即时奖励,此时奖励折扣因子γ为正;
若智能体i1所观测到的特征信息不在其对应的任务ti周围,或所观测到的特征信息与其他智能体所对应的子任务相关,则给予智能体一个负奖励:
γ=-(1-λ)r
即离非本任务越近,所获得的负奖励越高,奖励折扣因子γ为负。
与现有技术相比,本发明的有益之处在于:
(1)利用个性生成器使每个智能体的个性在训练过程中能得到体现;将个性生成器中的分类概率与基于注意力机制得到的加权奖励正则化奖励函数;设置的奖励函数根据每个智能体不同的任务进行修改,从而每个智能体都对应一个不同的奖励函数;新设置的奖励函数适用于深度确定性策略梯度算法,到了优化了训练策略,使全局奖励能够更快达到最优的目的。
附图说明
图1为本发明提供的基于注意力机制的多智能体深度强化学习策略优化方法的流程示意图;
图2为本发明提供的利用深度确定性策略梯度算法训练多智能体的示意图;
图3为本发明提供的奖励函数设置流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明。
本实施例提供的基于注意力机制的多智能体深度强化学习策略优化方法,使用个性生成器首先学习一个概率分类器,该分类器预测给定观察的代理上的概率分布,然后给每个代理一个被分类器正确预测概率的内在奖励;受到内在回报的鼓励,代理倾向于访问它们自己熟悉的观察结果;通过这样的观察学习概率分类器使得内在的奖励信号更强,并且反过来使得代理更加可识别。由于在早期学习阶段,不同主体访问的观察结果不能被分类器轻易区分,内在奖励信号不足以诱导主体特征,因此采用基于注意力机制的正则化器来学习分类器,以增加区分度,增强反馈,从而促进个性的出现。
图1为本实施例提供的基于注意力机制的多智能体深度强化学习策略优化方法的流程示意图,基于注意力机制的多智能体深度强化学习策略优化方法可用于游戏场景中,用于训练游戏场景达到全局最优的状态。
如图1-3所示,基于注意力机制的多智能体深度强化学习策略优化方法的步骤如下:
(1)多智能体集中训练过程
(1.1)搭建多智能体强化学习协作模拟场景;
(1.2)基于多智能体强化学习中的深度确定性策略梯度算法的多智能体强化学习框架训练多智能体;
(1.2.1)初始化动作探索的一个随机进程N,获得初始状态x;
(1.2.2)对每个智能体i,对当前的策略和探索过程选择动作
Figure BDA0003155972800000061
其中oi表示智能体i在t时刻的观测,Nt表示在t时刻的探索,θi表示Actor网络的参数,
Figure BDA0003155972800000062
表示状态空间到动作空间的映射;
(1.2.3)执行动作a=(a1,a2...aN),并观察所获得的奖励r和下一个状态'x′;
(1.2.4)各个Actor收集当前状态、动作以及下一个状态(x,a,r,x')存入经验回放池;
(1.2.5)从经验回放池中随机抽样小批量样本S(xj,aj,rj,x'j),其中j表示某个时刻;
(1.2.6)设置奖励函数:
Figure BDA0003155972800000071
其中,Qi μ'表示在j的下一个时刻下智能体i的Q值函数,a'k角标表示下一个k时刻通过观察所得到的动作;ri j表示在j时刻下智能体i的奖励值,γ为奖励折扣因子,x'j为j时刻的下一个状态,(a′1,....a′N)为动作a=(a1,a2...aN)的下一个动作;
(1.2.7)通过最小化奖励函数的loss来更新Critic网络:
Figure BDA0003155972800000072
其中,xj为j时刻的状态,
Figure BDA0003155972800000073
为j时刻的动作,/>
Figure BDA0003155972800000077
表示在j时刻下智能体i的Q值函数;
(1.2.8)利用采样数据计算的策略梯度来更新Actor网络:
Figure BDA0003155972800000074
其中,
Figure BDA0003155972800000075
为智能体i在j时刻的观测,xj为j时刻的状态,/>
Figure BDA0003155972800000076
为j时刻的动作;
(1.2.9)令θ′i为每个智能体i更新目标网络参数,其中τ∈(0,1)为随机参数:
θ′i←τθi+(1-τ)θ′i
(1.3)训练过程中,智能体各自与环境进行交互以得到经验数据,以此获得每个智能体的策略;
(1.4)各个Actor网络收集数据并存入缓冲池,当缓冲池数量大于预设阈值时,开始学习;
(1.5)利用Actor网络更新策略参数,利用Critic网络更新动作值参数并对Critic网络进行更新。
(2)个性生成器训练过程
(2.1)个性生成器利用一个概率分类器C(i/Oi)来预测智能体观察到的概率分布,每个智能体将正确预测的概率作为每个时间步长的内在回报;
(2.2)设置每个智能体的奖励函数为Ri+γC(i/Oi),其中Ri是每个智能体i获得全局奖励,C(i/Oi)是每个智能体i根据其观测Oi所得到的任务分类概率,而γ是加权内在奖励的调整参数;
(2.3)智能体策略之间存在的初始差异由C(i/Oi)获取,这种差异作为一种内在的奖励被反馈给每个智能体。
(2.4)分类器C(i/Oi)由神经网络
Figure BDA0003155972800000081
参数化,并以监督方式学习。在每个时间步t,将每个代理i的观测Oi作为输入,智能体的标号i作为标签,并将(i,Oi)对存储到新的缓冲区B中;
(2.5)通过最小化交叉熵损失(CE)来更新
Figure BDA0003155972800000082
交叉熵损失基于观测缓冲区B的均匀采样批次计算;
(2.6)随着每个智能体期望收益的最大化,智能体策略的差异随着环境奖励的优化而加剧;
(2.7)随着智能体的行为越来越可识别,分类器可以更准确地区分智能体,从而个性逐渐显现。
(3)引入图像注意力机制正则化奖励折扣因子γ
(3.1)由于每个智能体i在每个时间步的观测Oi都是一帧一帧的图像数据,利用Grad-CAM获取每个时间步观测Oi的特征信息;
(3.2)若智能体i1所观测到的特征信息集中在其对应的任务ti附近,则给予智能体一个正向奖励γ=(1-λ)r,其中λ为智能体与对应任务经归一化处理后的距离,r表示智能体i完成任务所获得的即时奖励,即离所要完成的任务越近,所获得的正奖励越高,奖励折扣因子γ为正;
(3.3)若智能体i1所观测到的特征信息不在其对应的任务ti周围,或所观测到的特征信息与其他智能体所对应的子任务相关,则给予智能体一个负奖励γ=-(1-λ)r,即离非本任务越近,所获得的负奖励越高,奖励折扣因子γ为负。
(3.4)将参数λ更新至个性生成器中设置的奖励函数;
(3.5)将新设置的奖励函数更新至深度确定性策略梯度算法中训练,直至算法收敛并且智能体的个性化得到体现。

Claims (6)

1.一种基于注意力机制的多智能体深度强化学习策略优化方法,其特征在于,所述方法包括如下步骤:
搭建多智能体强化学习协作模拟场景,并利用深度确定性策略梯度算法训练多智能体;
个性生成器利用概率分类器对智能体观察到的图片的概率分布进行预测,利用带有奖励折扣因子的奖励函数对概率分布器进行训练,使得概率分布器区分智能体更加准确,从而使得智能体的个性逐渐显现;
利用图像注意力机制获取每个时间步智能体观察到的图片的特征信息以及正则化奖励折扣因子,即利用Grad-CAM获取智能体在时刻观测的特征信息,计算概率分类器网络最后一层softmax输出的概率对最后一层特征图所有像素的偏导数,再取一次宽高维度上的全局平均,将上一步所得到的i类相对于最后一层卷积层输出的特征图的第i个通道的敏感程度当作权重将最后一层特征图加权,并进行线性组合,再送入ReLU激活函数处理,当特征信息集中在智能体对应任务附近时,给予智能体一个正奖励折扣因子,当特征信息不在智能体对应任务附近时,给予智能体一个负奖励折扣因子;将得到的奖励折扣因子更新至个性生成器中的奖励函数得到新设置的奖励函数;将新设置的奖励函数更新至深度确定性策略梯度算法的多智能体强化学习框架中对多智能体进行训练,直至多智能体达到收敛;
基于注意力机制的多智能体深度强化学习策略优化方法用于游戏场景中,以训练游戏场景达到全局最优的状态。
2.根据权利要求1所述的基于注意力机制的多智能体深度强化学习策略优化方法,其特征在于,所述利用深度确定性策略梯度算法多智能体的训练步骤如下:
初始化动作探索的一个随机进程N,获得初始状态x;
对每个智能体i,对当前的策略和探索过程选择动作
Figure FDA0004191748070000011
其中oi表示智能体i在t时刻的观测,Nt表示在t时刻的探索,θi表示Actor网络的参数,
Figure FDA0004191748070000021
表示状态空间到动作空间的映射;
执行动作a=(a1,a2...aN),并观察所获得的奖励r和下一个状态x';
各个Actor收集当前状态、动作以及下一个状态(x,a,r,x')存入经验回放池;
从经验回放池中随机抽样小批量样本S(xj,aj,rj,x'j),其中j表示某个时刻;
设置奖励函数:
Figure FDA0004191748070000022
其中,
Figure FDA0004191748070000023
表示在j的下一个时刻下智能体i的Q值函数,a'k角标表示下一个k时刻通过观察所得到的动作;ri j表示在j时刻下智能体i的奖励值,γ为奖励折扣因子,x'j为j时刻的下一个状态,(a′1,....a′N)为动作a=(a1,a2...aN)的下一个动作;
通过最小化奖励函数的loss来更新Critic网络:
Figure FDA0004191748070000024
/>
其中,xj为j时刻的状态,
Figure FDA0004191748070000025
为j时刻的动作,/>
Figure FDA0004191748070000026
表示在j时刻下智能体i的Q值函数;
利用采样数据计算的策略梯度来更新Actor网络:
Figure FDA0004191748070000027
其中,
Figure FDA0004191748070000029
为智能体i在j时刻的观测,xj为j时刻的状态,/>
Figure FDA0004191748070000028
为j时刻的动作;
令θ′i为每个智能体i更新目标网络参数,其中τ∈(0,1)为随机参数:
θ′i←τθi+(1-τ)θ′i
同时,训练过程中,多智能体中的每个智能体各自与环境交互得到经验数据一次获得每个智能体的策略。
3.根据权利要求2所述的基于注意力机制的多智能体深度强化学习策略优化方法,其特征在于,对深度确定性策略梯度算法需进行训练,训练步骤如下:
各Actor网络收集数据并存入缓冲池,当缓冲池的阈值大于预设的阈值时,开始学习;
利用Actor网络更新策略参数,利用Critic网络更新动作值参数并对Critic网络进行更新。
4.根据权利要求2所述的基于注意力机制的多智能体深度强化学习策略优化方法,其特征在于,所述个性生成器的训练过程如下:
从缓冲池中进行小批量随机采样,并利用概率分类器计算交叉熵;
通过最小化交叉熵更新分类神经网络参数;
利用新的神经网络参数设置新的奖励函数。
5.根据权利要求4所述的基于注意力机制的多智能体深度强化学习策略优化方法,其特征在于,所述概率分类器表示为:
P(i)=C(i|Oi)
其中:C(i/Oi)是每个智能体i根据其观测Oi所得到的任务分类概率,P(i)表示预测概率;
所述交叉熵的计算公式表示如下:
CE=-ΣZ(i)logP(i)
其中,Z(i)为真实分类概率;
所述分类神经网络参数的更新公式表示如下:
θi←min(-∑Z(i)logP(i))
其中,θi为分类神经网络参数;
所述新的奖励函数表示如下:
Figure FDA0004191748070000031
其中,Ri表示智能体的i的奖励值,γ为奖励折扣因子。
6.根据权利要求5所述的基于注意力机制的多智能体深度强化学习策略优化方法,其特征在于,正则化奖励折扣因子的步骤如下:
利用Grad-CAM获取智能体i在t时刻观测
Figure FDA0004191748070000032
的特征信息:/>
计算概率分类器网络最后一层softmax输出的概率p对最后一层特征图所有像素的偏导数:
Figure FDA0004191748070000041
其中,i是智能体的序号,A是最后一层卷积输出的特征图,k是特征图的通道维度的序号,h和w分别是高宽维度的序号;
将特征图每个像素的偏导数求出来后,取一次宽高维度上的全局平均:
Figure FDA0004191748070000042
将上一步所得到的i类相对于最后一层卷积层输出的特征图的第k个通道的敏感程度当作权重将最后一层特征图加权,并进行线性组合,再送入ReLU激活函数处理:
Figure FDA0004191748070000043
对得到的Grad-CAM热力图进行特性信息分析,若智能体i1所观测到的热力图特征信息显示集中在其对应的任务ti附近,则给予智能体一个正向奖励:
γ=(1-λ)r
其中λ智能体与对应任务经归一化处理后的距离,r表示智能体i完成任务所获得的即时奖励,此时奖励折扣因子γ为正;
若智能体i1所观测到的特征信息不在其对应的任务ti周围,或所观测到的特征信息与其他智能体所对应的子任务相关,则给予智能体一个负奖励:
γ=-(1-λ)r
即离非本任务越近,所获得的负奖励越高,奖励折扣因子γ为负。
CN202110777110.9A 2021-07-09 2021-07-09 基于注意力机制的多智能体深度强化学习策略优化方法 Active CN113392935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110777110.9A CN113392935B (zh) 2021-07-09 2021-07-09 基于注意力机制的多智能体深度强化学习策略优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110777110.9A CN113392935B (zh) 2021-07-09 2021-07-09 基于注意力机制的多智能体深度强化学习策略优化方法

Publications (2)

Publication Number Publication Date
CN113392935A CN113392935A (zh) 2021-09-14
CN113392935B true CN113392935B (zh) 2023-05-30

Family

ID=77625608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110777110.9A Active CN113392935B (zh) 2021-07-09 2021-07-09 基于注意力机制的多智能体深度强化学习策略优化方法

Country Status (1)

Country Link
CN (1) CN113392935B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792861B (zh) * 2021-09-16 2024-02-27 中国科学技术大学 一种基于值分布的多智能体强化学习方法及***
CN113759929B (zh) * 2021-09-22 2022-08-23 西安航天动力研究所 基于强化学习和模型预测控制的多智能体路径规划方法
CN113919485B (zh) * 2021-10-19 2024-03-15 西安交通大学 基于动态层级通信网络的多智能体强化学习方法及***
CN114123178B (zh) * 2021-11-17 2023-12-19 哈尔滨工程大学 一种基于多智能体强化学习的智能电网分区网络重构方法
CN114130034B (zh) * 2021-11-19 2023-08-18 天津大学 基于注意力机制与强化学习的多智能体游戏ai设计方法
CN114187978A (zh) * 2021-11-24 2022-03-15 中山大学 一种基于深度学习连接片段的化合物优化方法
CN113962390B (zh) * 2021-12-21 2022-04-01 中国科学院自动化研究所 基于深度强化学习网络构建多样化搜索策略的模型的方法
CN114454160B (zh) * 2021-12-31 2024-04-16 中国人民解放军国防科技大学 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及***
CN114489107B (zh) * 2022-01-29 2022-10-25 哈尔滨逐宇航天科技有限责任公司 一种飞行器双延迟深度确定性策略梯度姿态控制方法
CN114527666B (zh) * 2022-03-09 2023-08-11 西北工业大学 基于注意力机制的cps***强化学习控制方法
CN114625089B (zh) * 2022-03-15 2024-05-03 大连东软信息学院 一种基于改进近端策略优化算法的作业车间调度方法
CN114625091A (zh) * 2022-03-21 2022-06-14 京东城市(北京)数字科技有限公司 一种优化控制方法、装置、存储介质及电子设备
CN114841872A (zh) * 2022-04-12 2022-08-02 浙江大学 一种基于多智能体深度强化学习的数字半色调处理方法
CN114900619B (zh) * 2022-05-06 2023-05-05 北京航空航天大学 一种自适应曝光驱动相机摄影水下图像处理***
CN114925850B (zh) * 2022-05-11 2024-02-20 华东师范大学 一种面向扰动奖励的深度强化学习对抗防御方法
CN114815904B (zh) * 2022-06-29 2022-09-27 中国科学院自动化研究所 基于注意力网络的无人集群对抗方法、装置及无人设备
CN115333961B (zh) * 2022-06-30 2023-10-13 北京邮电大学 基于深度强化学习的无线通信网络管控方法及相关设备
CN115167136B (zh) * 2022-07-21 2023-04-07 中国人民解放军国防科技大学 一种基于深度强化学习和条件熵瓶颈的智能体控制方法
CN115062871B (zh) * 2022-08-11 2022-11-29 山西虚拟现实产业技术研究院有限公司 基于多智能体强化学习的智能电表状态评估方法
CN115333152A (zh) * 2022-08-22 2022-11-11 电子科技大学 一种配电网电压分布式实时控制方法
CN115648204A (zh) * 2022-09-26 2023-01-31 吉林大学 智能决策模型的训练方法、装置、设备以及存储介质
CN115797394B (zh) * 2022-11-15 2023-09-05 北京科技大学 一种基于强化学习的多智能体覆盖方法
CN115826013B (zh) * 2023-02-15 2023-04-21 广东工业大学 基于轻量化强化学习的城市多径环境下北斗卫星定位方法
CN116629128B (zh) * 2023-05-30 2024-03-29 哈尔滨工业大学 一种基于深度强化学习的控制电弧增材成型的方法
CN116560239B (zh) * 2023-07-06 2023-09-12 华南理工大学 一种多智能体强化学习方法、装置及介质
CN117151928A (zh) * 2023-09-05 2023-12-01 广州大学 结合强化学习的节电计算方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635917A (zh) * 2018-10-17 2019-04-16 北京大学 一种多智能体合作决策及训练方法
CN112329948A (zh) * 2020-11-04 2021-02-05 腾讯科技(深圳)有限公司 一种多智能体策略预测方法及装置
CN112801290A (zh) * 2021-02-26 2021-05-14 中国人民解放军陆军工程大学 一种多智能体深度强化学习方法、***及应用
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200162535A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Methods and Apparatus for Learning Based Adaptive Real-time Streaming
US11627165B2 (en) * 2019-01-24 2023-04-11 Deepmind Technologies Limited Multi-agent reinforcement learning with matchmaking policies
US20210089910A1 (en) * 2019-09-25 2021-03-25 Deepmind Technologies Limited Reinforcement learning using meta-learned intrinsic rewards

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635917A (zh) * 2018-10-17 2019-04-16 北京大学 一种多智能体合作决策及训练方法
CN112329948A (zh) * 2020-11-04 2021-02-05 腾讯科技(深圳)有限公司 一种多智能体策略预测方法及装置
CN112801290A (zh) * 2021-02-26 2021-05-14 中国人民解放军陆军工程大学 一种多智能体深度强化学习方法、***及应用
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
counterfactual multi-agent (COMA) policy gradients;Shimon Whiteson;The Thirty-Second AAAI Conference on Artificial Intelligence;1-9 *
多智能体协作模拟环境的设计与实现;陈晋音;计算机应用;第25卷;308-310 *

Also Published As

Publication number Publication date
CN113392935A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN113392935B (zh) 基于注意力机制的多智能体深度强化学习策略优化方法
CN107403426B (zh) 一种目标物体检测方法及设备
US11867599B2 (en) Apparatus and methods for controlling attention of a robot
CN113537106B (zh) 一种基于YOLOv5的鱼类摄食行为识别方法
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
CN110874578B (zh) 一种基于强化学习的无人机视角车辆识别追踪方法
CN111246091B (zh) 一种动态自动曝光控制方法和装置及电子设备
CN108510194A (zh) 风控模型训练方法、风险识别方法、装置、设备及介质
CN111079561A (zh) 一种基于虚拟训练的机器人智能抓取方法
CN111507501A (zh) 通过强化学习来执行个性化路径规划的方法及装置
JP7059695B2 (ja) 学習方法および学習装置
US11080837B2 (en) Architecture for improved machine learning operation
CN114842343A (zh) 一种基于ViT的航空图像识别方法
CN113870304A (zh) 异常行为检测与跟踪方法、装置、可读存储介质及设备
CN113065379B (zh) 融合图像质量的图像检测方法、装置、电子设备
CN113393495B (zh) 基于强化学习的高空抛物轨迹识别方法
CN113378638B (zh) 基于人体关节点检测和d-gru网络的轮机员异常行为识别方法
CN116630751B (zh) 一种融合信息瓶颈和不确定性感知的可信目标检测方法
CN113561995A (zh) 一种基于多维奖励架构深度q学习的自动驾驶决策方法
CN115909027A (zh) 一种态势估计方法及装置
CN115630361A (zh) 一种基于注意力蒸馏的联邦学习后门防御方法
JP2022514886A (ja) ニューラルネットワークをトレーニングするための方法
CN117709602B (zh) 一种基于社会价值取向的城市智能车辆拟人化决策方法
CN113658218B (zh) 一种双模板密集孪生网络跟踪方法、装置及存储介质
Liu et al. Hybrid-Input Convolutional Neural Network-Based Underwater Image Quality Assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant