CN113392935B - 基于注意力机制的多智能体深度强化学习策略优化方法 - Google Patents
基于注意力机制的多智能体深度强化学习策略优化方法 Download PDFInfo
- Publication number
- CN113392935B CN113392935B CN202110777110.9A CN202110777110A CN113392935B CN 113392935 B CN113392935 B CN 113392935B CN 202110777110 A CN202110777110 A CN 202110777110A CN 113392935 B CN113392935 B CN 113392935B
- Authority
- CN
- China
- Prior art keywords
- agent
- probability
- reinforcement learning
- rewarding
- updating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000007246 mechanism Effects 0.000 title claims abstract description 22
- 238000005457 optimization Methods 0.000 title claims abstract description 17
- 230000006870 function Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 238000004088 simulation Methods 0.000 claims abstract description 4
- 239000003795 chemical substances by application Substances 0.000 claims description 155
- 230000009471 action Effects 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于注意力机制的多智能体深度强化学习策略优化方法,所述方法包括如下步骤:搭建多智能体强化学习协作模拟场景,并利用深度确定性策略梯度算法训练多智能体;个性生成器利用概率分类器对智能体观察到的图片的概率分布进行预测,对概率分布器进行训练,使得概率分布器区分智能体更加准确,从而使得智能体的个性逐渐显现;获取每个时间步智能体观察到的图片的特征信息并正则化奖励折扣因子,将得到的奖励折扣因子更新至个性生成器中的奖励函数得到新设置的奖励函数;将新设置的奖励函数更新至深度确定性策略梯度算法的多智能体强化学习框架中对多智能体进行训练,直至多智能体达到收敛。
Description
技术领域
本发明涉及深度强化学习的防御领域,特别涉及一种基于注意力机制的多智能体深度强化学习策略优化方法。
背景技术
深度强化学习是近年来人工智能备受关注的方向之一,随着强化学习的快速发展和应用,强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。
深度强化学习算法较多应用于单智能体场景,在单智能体强化学习中,智能体所在的环境是稳定不变的,但是在多智能体强化(MARL)学习中,环境是复杂的、动态的,每个智能体的动作都会对其余智能体的动作选择造成影响,多智能体强化学习存在维度***、奖励函数确定困难,以及环境不稳定的问题,因此给学习过程带来很大的困难;同时在多智能体***中智能体之间可能涉及到合作与竞争等关系目标奖励确定困难,由于多智能体***中每个智能体的任务可能不同,但是彼此之间又相互耦合影响,所以奖励设计的优劣将直接影响学习到的策略的好坏。
多智能体强化学习现已广泛应用在于多智能体协作场景,但人们普遍观察到当智能体是同等的,且具有共享的全局奖励时,在共同训练阶段智能体都学习相似的行为;然而,学习类似的行为很容易使学习到的策略陷入局部最优。一些研究则有意通过多样性追求代理策略的差异,然而诱导的差异与任务的成功并没有直接的联系。相反,个性的出现以及学习合作可以自动驱动代理人采取不同的行为,并在需要时扮演不同的角色,以成功完成任务。
在现有的多智能体深度强化学习算法中,智能体可能会选择偏向易于完成目标任务的动作,即智能体可能会倾向于完成容易的任务,导致复杂的任务只有很少的智能体甚至无智能体完成,最终使整个多智能体场景陷入局部最优的情况,从而导致整个全局奖励的降低。在实践中,由于强化学习代理大多是同等的,通过在与环境交互的策略学习过程中,应该让代理能够发展个性;因此在多智能体环境中,智能体通过分别探索环境并与环境交互,个性应该从它们的经历中显现出来。
发明内容
为解决现有技术中存在的问题,本发明提供一种基于注意力机制的多智能体深度强化学习策略优化方法,达到了使各个智能体能够充分发挥其个性化,更好地完成各自的任务,从而达到全局奖励的最优的目的。
一种基于注意力机制的多智能体深度强化学习策略优化方法,所述方法包括如下步骤:
搭建多智能体强化学习协作模拟场景,并利用深度确定性策略梯度算法训练多智能体;
个性生成器利用概率分类器对智能体观察到的图片的概率分布进行预测,利用带有奖励折扣因子的奖励函数对概率分布器进行训练,使得概率分布器区分智能体更加准确,从而使得智能体的个性逐渐显现;
利用图像注意力机制获取每个时间步智能体观察到的图片的特征信息并正则化奖励折扣因子,当特征信息集中在智能体对应任务附近时,给予智能体一个正奖励折扣因子,当特征信息不在智能体对应任务附近时,给予智能体一个负奖励折扣因子;
将得到的奖励折扣因子更新至个性生成器中的奖励函数得到新设置的奖励函数;将新设置的奖励函数更新至深度确定性策略梯度算法的多智能体强化学习框架中对多智能体进行训练,直至多智能体达到收敛。
所述利用深度确定性策略梯度算法多智能体的训练步骤如下:
初始化动作探索的一个随机进程N,获得初始状态x;
对每个智能体i,对当前的策略和探索过程选择动作
执行动作a=(a1,a2...aN),并观察所获得的奖励r和下一个状态x';
各个Actor收集当前状态、动作以及下一个状态(x,a,r,x')存入经验回放池;
从经验回放池中随机抽样小批量样本S(xj,aj,rj,x'j),其中j表示某个时刻;
设置奖励函数:
其中,Qi μ'表示在j的下一个时刻下智能体i的Q值函数,a'k角标表示下一个k时刻通过观察所得到的动作;ri j表示在j时刻下智能体i的奖励值,γ为奖励折扣因子,x'j为j时刻的下一个状态,(a'1,....a'N)为动作a=(a1,a2...aN)的下一个动作;
通过最小化奖励函数的loss来更新Critic网络:
利用采样数据计算的策略梯度来更新Actor网络:
令θi'为每个智能体i更新目标网络参数,其中τ∈(0,1)为随机参数:
θ′i←τθi+(1-τ)θ′i
同时,训练过程中,多智能体中的每个智能体各自与环境交互得到经验数据一次获得每个智能体的策略。
对深度确定性策略梯度算法需进行训练,训练步骤如下:
各Actor网络收集数据并存入缓冲池,当缓冲池的阈值大于预设的阈值时,开始学习;
利用Actor网络更新策略参数,利用Critic网络更新动作值参数并对Critic网络进行更新。
优选的,所述个性生成器的训练过程如下:
从缓冲池中进行小批量随机采样,并利用概率分类器计算交叉熵;
通过最小化交叉熵更新分类神经网络参数;
利用新的神经网络参数设置新的奖励函数。
所述概率分类器表示为:
P(i)=C(i|Oi)
其中:C(i/Oi)是每个智能体i根据其观测Oi所得到的任务分类概率,P(i)表示预测概率;
所述交叉熵的计算公式表示如下:
CE=-∑Z(i)log P(i)
其中,Z(i)为真实分类概率;
所述分类神经网络参数的更新公式表示如下:
所述新的奖励函数表示如下:
其中,Ri表示智能体的i的奖励值,γ为奖励折扣因子。
优选的,正则化奖励折扣因子的步骤如下:
计算概率分类器网络最后一层softmax输出的概率p对最后一层特征图所有像素的偏导数:
其中,i是智能体的序号,A是最后一层卷积输出的特征图,k是特征图的通道维度的序号,h和w分别是高宽维度的序号;
将特征图每个像素的偏导数求出来后,取一次宽高维度上的全局平均:
将上一步所得到的i类相对于最后一层卷积层输出的特征图的第k个通道的敏感程度当作权重将最后一层特征图加权,并进行线性组合,再送入ReLU激活函数处理:
对得到的Grad-CAM热力图进行特性信息分析,若智能体i1所观测到的热力图特征信息显示集中在其对应的任务ti附近,则给予智能体一个正向奖励:
γ=(1-λ)r
其中λ智能体与对应任务经归一化处理后的距离,r表示智能体i完成任务所获得的即时奖励,此时奖励折扣因子γ为正;
若智能体i1所观测到的特征信息不在其对应的任务ti周围,或所观测到的特征信息与其他智能体所对应的子任务相关,则给予智能体一个负奖励:
γ=-(1-λ)r
即离非本任务越近,所获得的负奖励越高,奖励折扣因子γ为负。
与现有技术相比,本发明的有益之处在于:
(1)利用个性生成器使每个智能体的个性在训练过程中能得到体现;将个性生成器中的分类概率与基于注意力机制得到的加权奖励正则化奖励函数;设置的奖励函数根据每个智能体不同的任务进行修改,从而每个智能体都对应一个不同的奖励函数;新设置的奖励函数适用于深度确定性策略梯度算法,到了优化了训练策略,使全局奖励能够更快达到最优的目的。
附图说明
图1为本发明提供的基于注意力机制的多智能体深度强化学习策略优化方法的流程示意图;
图2为本发明提供的利用深度确定性策略梯度算法训练多智能体的示意图;
图3为本发明提供的奖励函数设置流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明。
本实施例提供的基于注意力机制的多智能体深度强化学习策略优化方法,使用个性生成器首先学习一个概率分类器,该分类器预测给定观察的代理上的概率分布,然后给每个代理一个被分类器正确预测概率的内在奖励;受到内在回报的鼓励,代理倾向于访问它们自己熟悉的观察结果;通过这样的观察学习概率分类器使得内在的奖励信号更强,并且反过来使得代理更加可识别。由于在早期学习阶段,不同主体访问的观察结果不能被分类器轻易区分,内在奖励信号不足以诱导主体特征,因此采用基于注意力机制的正则化器来学习分类器,以增加区分度,增强反馈,从而促进个性的出现。
图1为本实施例提供的基于注意力机制的多智能体深度强化学习策略优化方法的流程示意图,基于注意力机制的多智能体深度强化学习策略优化方法可用于游戏场景中,用于训练游戏场景达到全局最优的状态。
如图1-3所示,基于注意力机制的多智能体深度强化学习策略优化方法的步骤如下:
(1)多智能体集中训练过程
(1.1)搭建多智能体强化学习协作模拟场景;
(1.2)基于多智能体强化学习中的深度确定性策略梯度算法的多智能体强化学习框架训练多智能体;
(1.2.1)初始化动作探索的一个随机进程N,获得初始状态x;
(1.2.2)对每个智能体i,对当前的策略和探索过程选择动作
(1.2.3)执行动作a=(a1,a2...aN),并观察所获得的奖励r和下一个状态'x′;
(1.2.4)各个Actor收集当前状态、动作以及下一个状态(x,a,r,x')存入经验回放池;
(1.2.5)从经验回放池中随机抽样小批量样本S(xj,aj,rj,x'j),其中j表示某个时刻;
(1.2.6)设置奖励函数:
其中,Qi μ'表示在j的下一个时刻下智能体i的Q值函数,a'k角标表示下一个k时刻通过观察所得到的动作;ri j表示在j时刻下智能体i的奖励值,γ为奖励折扣因子,x'j为j时刻的下一个状态,(a′1,....a′N)为动作a=(a1,a2...aN)的下一个动作;
(1.2.7)通过最小化奖励函数的loss来更新Critic网络:
(1.2.8)利用采样数据计算的策略梯度来更新Actor网络:
(1.2.9)令θ′i为每个智能体i更新目标网络参数,其中τ∈(0,1)为随机参数:
θ′i←τθi+(1-τ)θ′i;
(1.3)训练过程中,智能体各自与环境进行交互以得到经验数据,以此获得每个智能体的策略;
(1.4)各个Actor网络收集数据并存入缓冲池,当缓冲池数量大于预设阈值时,开始学习;
(1.5)利用Actor网络更新策略参数,利用Critic网络更新动作值参数并对Critic网络进行更新。
(2)个性生成器训练过程
(2.1)个性生成器利用一个概率分类器C(i/Oi)来预测智能体观察到的概率分布,每个智能体将正确预测的概率作为每个时间步长的内在回报;
(2.2)设置每个智能体的奖励函数为Ri+γC(i/Oi),其中Ri是每个智能体i获得全局奖励,C(i/Oi)是每个智能体i根据其观测Oi所得到的任务分类概率,而γ是加权内在奖励的调整参数;
(2.3)智能体策略之间存在的初始差异由C(i/Oi)获取,这种差异作为一种内在的奖励被反馈给每个智能体。
(2.6)随着每个智能体期望收益的最大化,智能体策略的差异随着环境奖励的优化而加剧;
(2.7)随着智能体的行为越来越可识别,分类器可以更准确地区分智能体,从而个性逐渐显现。
(3)引入图像注意力机制正则化奖励折扣因子γ
(3.1)由于每个智能体i在每个时间步的观测Oi都是一帧一帧的图像数据,利用Grad-CAM获取每个时间步观测Oi的特征信息;
(3.2)若智能体i1所观测到的特征信息集中在其对应的任务ti附近,则给予智能体一个正向奖励γ=(1-λ)r,其中λ为智能体与对应任务经归一化处理后的距离,r表示智能体i完成任务所获得的即时奖励,即离所要完成的任务越近,所获得的正奖励越高,奖励折扣因子γ为正;
(3.3)若智能体i1所观测到的特征信息不在其对应的任务ti周围,或所观测到的特征信息与其他智能体所对应的子任务相关,则给予智能体一个负奖励γ=-(1-λ)r,即离非本任务越近,所获得的负奖励越高,奖励折扣因子γ为负。
(3.4)将参数λ更新至个性生成器中设置的奖励函数;
(3.5)将新设置的奖励函数更新至深度确定性策略梯度算法中训练,直至算法收敛并且智能体的个性化得到体现。
Claims (6)
1.一种基于注意力机制的多智能体深度强化学习策略优化方法,其特征在于,所述方法包括如下步骤:
搭建多智能体强化学习协作模拟场景,并利用深度确定性策略梯度算法训练多智能体;
个性生成器利用概率分类器对智能体观察到的图片的概率分布进行预测,利用带有奖励折扣因子的奖励函数对概率分布器进行训练,使得概率分布器区分智能体更加准确,从而使得智能体的个性逐渐显现;
利用图像注意力机制获取每个时间步智能体观察到的图片的特征信息以及正则化奖励折扣因子,即利用Grad-CAM获取智能体在时刻观测的特征信息,计算概率分类器网络最后一层softmax输出的概率对最后一层特征图所有像素的偏导数,再取一次宽高维度上的全局平均,将上一步所得到的i类相对于最后一层卷积层输出的特征图的第i个通道的敏感程度当作权重将最后一层特征图加权,并进行线性组合,再送入ReLU激活函数处理,当特征信息集中在智能体对应任务附近时,给予智能体一个正奖励折扣因子,当特征信息不在智能体对应任务附近时,给予智能体一个负奖励折扣因子;将得到的奖励折扣因子更新至个性生成器中的奖励函数得到新设置的奖励函数;将新设置的奖励函数更新至深度确定性策略梯度算法的多智能体强化学习框架中对多智能体进行训练,直至多智能体达到收敛;
基于注意力机制的多智能体深度强化学习策略优化方法用于游戏场景中,以训练游戏场景达到全局最优的状态。
2.根据权利要求1所述的基于注意力机制的多智能体深度强化学习策略优化方法,其特征在于,所述利用深度确定性策略梯度算法多智能体的训练步骤如下:
初始化动作探索的一个随机进程N,获得初始状态x;
对每个智能体i,对当前的策略和探索过程选择动作
执行动作a=(a1,a2...aN),并观察所获得的奖励r和下一个状态x';
各个Actor收集当前状态、动作以及下一个状态(x,a,r,x')存入经验回放池;
从经验回放池中随机抽样小批量样本S(xj,aj,rj,x'j),其中j表示某个时刻;
设置奖励函数:
其中,表示在j的下一个时刻下智能体i的Q值函数,a'k角标表示下一个k时刻通过观察所得到的动作;ri j表示在j时刻下智能体i的奖励值,γ为奖励折扣因子,x'j为j时刻的下一个状态,(a′1,....a′N)为动作a=(a1,a2...aN)的下一个动作;
通过最小化奖励函数的loss来更新Critic网络:
利用采样数据计算的策略梯度来更新Actor网络:
令θ′i为每个智能体i更新目标网络参数,其中τ∈(0,1)为随机参数:
θ′i←τθi+(1-τ)θ′i
同时,训练过程中,多智能体中的每个智能体各自与环境交互得到经验数据一次获得每个智能体的策略。
3.根据权利要求2所述的基于注意力机制的多智能体深度强化学习策略优化方法,其特征在于,对深度确定性策略梯度算法需进行训练,训练步骤如下:
各Actor网络收集数据并存入缓冲池,当缓冲池的阈值大于预设的阈值时,开始学习;
利用Actor网络更新策略参数,利用Critic网络更新动作值参数并对Critic网络进行更新。
4.根据权利要求2所述的基于注意力机制的多智能体深度强化学习策略优化方法,其特征在于,所述个性生成器的训练过程如下:
从缓冲池中进行小批量随机采样,并利用概率分类器计算交叉熵;
通过最小化交叉熵更新分类神经网络参数;
利用新的神经网络参数设置新的奖励函数。
6.根据权利要求5所述的基于注意力机制的多智能体深度强化学习策略优化方法,其特征在于,正则化奖励折扣因子的步骤如下:
计算概率分类器网络最后一层softmax输出的概率p对最后一层特征图所有像素的偏导数:
其中,i是智能体的序号,A是最后一层卷积输出的特征图,k是特征图的通道维度的序号,h和w分别是高宽维度的序号;
将特征图每个像素的偏导数求出来后,取一次宽高维度上的全局平均:
将上一步所得到的i类相对于最后一层卷积层输出的特征图的第k个通道的敏感程度当作权重将最后一层特征图加权,并进行线性组合,再送入ReLU激活函数处理:
对得到的Grad-CAM热力图进行特性信息分析,若智能体i1所观测到的热力图特征信息显示集中在其对应的任务ti附近,则给予智能体一个正向奖励:
γ=(1-λ)r
其中λ智能体与对应任务经归一化处理后的距离,r表示智能体i完成任务所获得的即时奖励,此时奖励折扣因子γ为正;
若智能体i1所观测到的特征信息不在其对应的任务ti周围,或所观测到的特征信息与其他智能体所对应的子任务相关,则给予智能体一个负奖励:
γ=-(1-λ)r
即离非本任务越近,所获得的负奖励越高,奖励折扣因子γ为负。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110777110.9A CN113392935B (zh) | 2021-07-09 | 2021-07-09 | 基于注意力机制的多智能体深度强化学习策略优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110777110.9A CN113392935B (zh) | 2021-07-09 | 2021-07-09 | 基于注意力机制的多智能体深度强化学习策略优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392935A CN113392935A (zh) | 2021-09-14 |
CN113392935B true CN113392935B (zh) | 2023-05-30 |
Family
ID=77625608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110777110.9A Active CN113392935B (zh) | 2021-07-09 | 2021-07-09 | 基于注意力机制的多智能体深度强化学习策略优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392935B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792861B (zh) * | 2021-09-16 | 2024-02-27 | 中国科学技术大学 | 一种基于值分布的多智能体强化学习方法及*** |
CN113759929B (zh) * | 2021-09-22 | 2022-08-23 | 西安航天动力研究所 | 基于强化学习和模型预测控制的多智能体路径规划方法 |
CN113919485B (zh) * | 2021-10-19 | 2024-03-15 | 西安交通大学 | 基于动态层级通信网络的多智能体强化学习方法及*** |
CN114123178B (zh) * | 2021-11-17 | 2023-12-19 | 哈尔滨工程大学 | 一种基于多智能体强化学习的智能电网分区网络重构方法 |
CN114130034B (zh) * | 2021-11-19 | 2023-08-18 | 天津大学 | 基于注意力机制与强化学习的多智能体游戏ai设计方法 |
CN114187978A (zh) * | 2021-11-24 | 2022-03-15 | 中山大学 | 一种基于深度学习连接片段的化合物优化方法 |
CN113962390B (zh) * | 2021-12-21 | 2022-04-01 | 中国科学院自动化研究所 | 基于深度强化学习网络构建多样化搜索策略的模型的方法 |
CN114454160B (zh) * | 2021-12-31 | 2024-04-16 | 中国人民解放军国防科技大学 | 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及*** |
CN114489107B (zh) * | 2022-01-29 | 2022-10-25 | 哈尔滨逐宇航天科技有限责任公司 | 一种飞行器双延迟深度确定性策略梯度姿态控制方法 |
CN114527666B (zh) * | 2022-03-09 | 2023-08-11 | 西北工业大学 | 基于注意力机制的cps***强化学习控制方法 |
CN114625089B (zh) * | 2022-03-15 | 2024-05-03 | 大连东软信息学院 | 一种基于改进近端策略优化算法的作业车间调度方法 |
CN114625091A (zh) * | 2022-03-21 | 2022-06-14 | 京东城市(北京)数字科技有限公司 | 一种优化控制方法、装置、存储介质及电子设备 |
CN114841872A (zh) * | 2022-04-12 | 2022-08-02 | 浙江大学 | 一种基于多智能体深度强化学习的数字半色调处理方法 |
CN114900619B (zh) * | 2022-05-06 | 2023-05-05 | 北京航空航天大学 | 一种自适应曝光驱动相机摄影水下图像处理*** |
CN114925850B (zh) * | 2022-05-11 | 2024-02-20 | 华东师范大学 | 一种面向扰动奖励的深度强化学习对抗防御方法 |
CN114815904B (zh) * | 2022-06-29 | 2022-09-27 | 中国科学院自动化研究所 | 基于注意力网络的无人集群对抗方法、装置及无人设备 |
CN115333961B (zh) * | 2022-06-30 | 2023-10-13 | 北京邮电大学 | 基于深度强化学习的无线通信网络管控方法及相关设备 |
CN115167136B (zh) * | 2022-07-21 | 2023-04-07 | 中国人民解放军国防科技大学 | 一种基于深度强化学习和条件熵瓶颈的智能体控制方法 |
CN115062871B (zh) * | 2022-08-11 | 2022-11-29 | 山西虚拟现实产业技术研究院有限公司 | 基于多智能体强化学习的智能电表状态评估方法 |
CN115333152A (zh) * | 2022-08-22 | 2022-11-11 | 电子科技大学 | 一种配电网电压分布式实时控制方法 |
CN115648204A (zh) * | 2022-09-26 | 2023-01-31 | 吉林大学 | 智能决策模型的训练方法、装置、设备以及存储介质 |
CN115797394B (zh) * | 2022-11-15 | 2023-09-05 | 北京科技大学 | 一种基于强化学习的多智能体覆盖方法 |
CN115826013B (zh) * | 2023-02-15 | 2023-04-21 | 广东工业大学 | 基于轻量化强化学习的城市多径环境下北斗卫星定位方法 |
CN116629128B (zh) * | 2023-05-30 | 2024-03-29 | 哈尔滨工业大学 | 一种基于深度强化学习的控制电弧增材成型的方法 |
CN116560239B (zh) * | 2023-07-06 | 2023-09-12 | 华南理工大学 | 一种多智能体强化学习方法、装置及介质 |
CN117151928A (zh) * | 2023-09-05 | 2023-12-01 | 广州大学 | 结合强化学习的节电计算方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635917A (zh) * | 2018-10-17 | 2019-04-16 | 北京大学 | 一种多智能体合作决策及训练方法 |
CN112329948A (zh) * | 2020-11-04 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 一种多智能体策略预测方法及装置 |
CN112801290A (zh) * | 2021-02-26 | 2021-05-14 | 中国人民解放军陆军工程大学 | 一种多智能体深度强化学习方法、***及应用 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及*** |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200162535A1 (en) * | 2018-11-19 | 2020-05-21 | Zhan Ma | Methods and Apparatus for Learning Based Adaptive Real-time Streaming |
US11627165B2 (en) * | 2019-01-24 | 2023-04-11 | Deepmind Technologies Limited | Multi-agent reinforcement learning with matchmaking policies |
US20210089910A1 (en) * | 2019-09-25 | 2021-03-25 | Deepmind Technologies Limited | Reinforcement learning using meta-learned intrinsic rewards |
-
2021
- 2021-07-09 CN CN202110777110.9A patent/CN113392935B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635917A (zh) * | 2018-10-17 | 2019-04-16 | 北京大学 | 一种多智能体合作决策及训练方法 |
CN112329948A (zh) * | 2020-11-04 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 一种多智能体策略预测方法及装置 |
CN112801290A (zh) * | 2021-02-26 | 2021-05-14 | 中国人民解放军陆军工程大学 | 一种多智能体深度强化学习方法、***及应用 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及*** |
Non-Patent Citations (2)
Title |
---|
counterfactual multi-agent (COMA) policy gradients;Shimon Whiteson;The Thirty-Second AAAI Conference on Artificial Intelligence;1-9 * |
多智能体协作模拟环境的设计与实现;陈晋音;计算机应用;第25卷;308-310 * |
Also Published As
Publication number | Publication date |
---|---|
CN113392935A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113392935B (zh) | 基于注意力机制的多智能体深度强化学习策略优化方法 | |
CN107403426B (zh) | 一种目标物体检测方法及设备 | |
US11867599B2 (en) | Apparatus and methods for controlling attention of a robot | |
CN113537106B (zh) | 一种基于YOLOv5的鱼类摄食行为识别方法 | |
CN112465151A (zh) | 一种基于深度强化学习的多智能体联邦协作方法 | |
CN110874578B (zh) | 一种基于强化学习的无人机视角车辆识别追踪方法 | |
CN111246091B (zh) | 一种动态自动曝光控制方法和装置及电子设备 | |
CN108510194A (zh) | 风控模型训练方法、风险识别方法、装置、设备及介质 | |
CN111079561A (zh) | 一种基于虚拟训练的机器人智能抓取方法 | |
CN111507501A (zh) | 通过强化学习来执行个性化路径规划的方法及装置 | |
JP7059695B2 (ja) | 学習方法および学習装置 | |
US11080837B2 (en) | Architecture for improved machine learning operation | |
CN114842343A (zh) | 一种基于ViT的航空图像识别方法 | |
CN113870304A (zh) | 异常行为检测与跟踪方法、装置、可读存储介质及设备 | |
CN113065379B (zh) | 融合图像质量的图像检测方法、装置、电子设备 | |
CN113393495B (zh) | 基于强化学习的高空抛物轨迹识别方法 | |
CN113378638B (zh) | 基于人体关节点检测和d-gru网络的轮机员异常行为识别方法 | |
CN116630751B (zh) | 一种融合信息瓶颈和不确定性感知的可信目标检测方法 | |
CN113561995A (zh) | 一种基于多维奖励架构深度q学习的自动驾驶决策方法 | |
CN115909027A (zh) | 一种态势估计方法及装置 | |
CN115630361A (zh) | 一种基于注意力蒸馏的联邦学习后门防御方法 | |
JP2022514886A (ja) | ニューラルネットワークをトレーニングするための方法 | |
CN117709602B (zh) | 一种基于社会价值取向的城市智能车辆拟人化决策方法 | |
CN113658218B (zh) | 一种双模板密集孪生网络跟踪方法、装置及存储介质 | |
Liu et al. | Hybrid-Input Convolutional Neural Network-Based Underwater Image Quality Assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |