CN109511277B - 多状态连续动作空间的合作式方法及*** - Google Patents

多状态连续动作空间的合作式方法及*** Download PDF

Info

Publication number
CN109511277B
CN109511277B CN201880001580.2A CN201880001580A CN109511277B CN 109511277 B CN109511277 B CN 109511277B CN 201880001580 A CN201880001580 A CN 201880001580A CN 109511277 B CN109511277 B CN 109511277B
Authority
CN
China
Prior art keywords
action
state
return
actions
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880001580.2A
Other languages
English (en)
Other versions
CN109511277A (zh
Inventor
侯韩旭
郝建业
张程伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan University of Technology
Original Assignee
Dongguan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan University of Technology filed Critical Dongguan University of Technology
Publication of CN109511277A publication Critical patent/CN109511277A/zh
Application granted granted Critical
Publication of CN109511277B publication Critical patent/CN109511277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/847Cooperative playing, e.g. requiring coordinated actions from several players to achieve a common goal
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种多状态连续动作空间的合作式方法及***,属于强化学习领域。本发明方法包括如下步骤:对于任意状态集合中的状态,初始化动作集;对于任意状态集合中的状态和动作集中的动作,初始化相关参数;分别在动作集修正层和策略评估更新层构建相应的协作机制,直至智能体i在状态s下的回报收敛。本发明还提供了一种实现所述多状态连续动作空间的合作式方法的***。本发明的有益效果为:能够很好的处理连续动作空间中多智能体的协作问题。

Description

多状态连续动作空间的合作式方法及***
技术领域
本发明涉及强化学习领域,尤其涉及一种多状态连续动作空间的合作式方法及***。
背景技术
目前强化学***稳性和随机性问题,依旧是连续动作空间问题上的巨大挑战。
现实中有很多研究领域涉及到连续动作空间上的多智能体协作问题,如机器人足球[1]和多人在线竞技游戏[2]。在这类问题中,智能体不仅需要解决连续动作空间上的无穷大动作集选择问题,还需要同其他智能体有效地协作来寻求群体回报最优。
到目前为止,已经有很多研究用于解决多智能体环境情况下的协作问题。最常见的为基于Q学习扩展类的算法,如Distributed-Q学习[3]、Hysteretic-Q学习[4]、Lenient学习[5]、Lenient-FAQ[6]、LMRL2[7]、Lenient-DQN[8]和rFMQ[9]。这些算法能解决一定程度的多智能体***的协作问题,但是它们只能应用在离散的动作空间中。
另一方面,一些工作集中于研究连续动作空间下的控制问题,如值函数近似(Value Approximation)算法[10-14]和策略近似(Policy Approximation)算法[15-18]。值函数近似类算法按照训练样本估计在状态-动作空间对应的值函数,而策略近似类算法将策略定义为连续空间上的某种分布的概率密度函数,然后直接学***性的学习算法[22],以及使用连续玻尔兹曼探索策略中算法在稳定状态下的理论模型分析[23]。
发明内容
为解决现有技术中的问题,本发明提供一种多状态连续动作空间的合作式方法及***。
本发明多状态连续动作空间的合作式方法包括如下步骤:
(1):对于任意状态s∈S,初始化采样的动作集Ai(s)为集智能体i的连续动作空间
Figure BDA0001824274590000011
中随机样的n个动作,其中,S为状态集合;
(2):对于对任意的状态s∈S和动作a∈Ai(s),初始化智能体i在状态s下关于动作a的期望回报Qi(s,a),历史最大回报
Figure BDA0001824274590000021
和加权平均回报Ei(s,a),智能体i在状态s下的平均期望回报Vi(s),初始化在状态s下选择动作a的概率πi(s,a),出现回报最大值的频率的估计Fi(s,a),及探索率li(s)为设定值;
(3):重复执行以下步骤直至智能体i在状态s下的回报收敛,
(31):初始化状态s←s0
(32):重复以下步骤直到状态s到达终止态
(321):判断是否需要更新动作集,如果否,执行步骤(322),如果是,对动作集进行重采样,保留最大回报动作,并在该动作一定范围内采集新的动作作为新的动作集,然后执行步骤(322);
(322):对于任意的a∈Ai(s),按照具有最高回报的动作被最高概率的选择原则更新πi(s,a)和Qi(s,a);
(323):更新状态:s←s′。
本发明作进一步改进,在步骤(1)中,设置各状态最开始的采样动作集Ai(s)为连续动作空间
Figure BDA0001824274590000022
中等距离采样的n个动作。
本发明作进一步改进,采用分片双线性差值算法将n个离散动作转化为连续动作空间上的连续动作。
本发明作进一步改进,在步骤(31)中,通过协作式采样策略进行重采样,更新动作集,采用可变的探索率li(s)控制所述协作式采样策略在最大回报动作周围采样新动作的范围。
本发明作进一步改进,所述协作式采样策略的处理方法为:
A1:更新探索率li(s):
如果当前动作集的平均期望回报
Figure BDA0001824274590000023
大于或等于之前的各动作集的累计平均期望回报Vi(s),则减少探索率li(s)为li(s)δd,否则增加li(s)为li(s)δl,其中,δl为大于1的正实数,δd为小于1的正实数;
A2:更新累计平均期望回报:
Figure BDA0001824274590000024
其中αs为学习率;
A3:按照探索率li(s)重新采样动作集:
计算当前回报最大的动作
Figure BDA0001824274590000025
保留当前集合中具有最大的期望回报的|Ai(s)|/3个动作,并从半径为li(s)的amax的邻域内随机选择2|Ai(s)|/3个新的动作,共同组成新的动作集;
A4:初始化每个动作新的动作下的策略πi(s,a)和对应的期望回报Qi(s,a)为起始的设定值。
本发明作进一步改进,在步骤(32)中,智能体i采用多状态递归频率最大Q值学习算法进行学习更新。
本发明作进一步改进,所述多状态递归频率最大Q值学习算法的处理方法为:
B1:判断当前的动作集是否更新过,如果否,直接执行步骤B2,如果是,初始化当前状态下所有动作对应的Fi(s,a)、
Figure BDA0001824274590000031
和Ei(s,a),然后执行步骤B2;/>
B2:以一定的探索率按照策略πi(s,a)选择状态s下的行为a∈Ai(s);
B3:从环境中观察到回报r和下一步状态s′,并更新当前s和a对应的状态动作值Qi(s,a):Qi(s,a)←(1-α)Qi(s,a)+α(r+γmaxa′Qi(s′,a′)),
其中,α为学习率,γ为折扣因子,
Figure BDA0001824274590000032
为下一步状态s′时,动作a’时的最大状态动作值;
B4:按照递归最大值优先思想估计Ei(s,a);
B5:依据Ei(s,a)使用策略爬山算法更新策略πi(s,a),即增加选择具有最大Ei(s,a)值的动作的概率,同时选择减小其它动作的概率。
本发明还提供了一种实现所述多状态连续动作空间的合作式方法的***,包括:
初始化动作集模块:用于对于任意状态s∈S,初始化采样的动作集Ai(s)为集智能体i的连续动作空间Ai(s)中随机样的n个动作;
初始化参数模块:对于对任意的状态s∈S和动作a∈Ai(s),初始化智能体i在状态s下关于动作a的期望回报Qi(s,a),历史最大回报
Figure BDA0001824274590000033
和加权平均回报Ei(s,a),智能体i在状态s下的平均期望回报Vi(s),初始化在状态s下选择动作a的概率πi(s,a),出现回报最大值的频率的估计Fi(s,a),及探索率li(s)为设定值;
收敛模块:用于重复执行以下单元直至智能体i在状态s下的回报收敛,
动作集修正单元:用于判断是否需要更新动作集,如果否,执行策略评估和更新单元,如果是,对动作集进行重采样,保留最大回报动作,并在该动作一定范围内采集新的动作作为新的动作集,然后执行策略评估和更新单元;
策略评估和更新单元:用于对于任意的a∈Ai(s),按照具有最高回报的动作被最高概率的选择原则更新πi(s,a)和Qi(s,a);
状态更新单元:用于更新状态s←s′。
本发明作进一步改进,所述动作集修正单元通过协作式采样策略进行重采样,更新动作集,采用可变的探索率li(s)控制所述协作式采样策略在最大回报动作周围采样新动作的范围。
本发明作进一步改进,所述策略评估和更新单元采用多状态递归频率最大Q值学习算法进行学习更新。
与现有技术相比,本发明的有益效果是:解决连续动作空间中马尔科夫游戏的协作问题,本发明的协作式从采样策略通过重采样可用的动作集解决连续动作空间问题,而多状态递归频率最大Q值学习算法评估采样到的动作集并给出相应的协作策略。通过对两个部分分别考虑相应的协作机制,本发明能够很好的处理连续动作空间中多智能体的协作问题。
附图说明
图1为本发明结构示意图;
图2为本发明方法流程图;
图3为连续版CG示意图;
图4为在连续版CG游戏中,SMC、rFMQ、CALA和SCC-rFMQ的实验对比参考图;
图5为在连续版PSCG游戏中,SMC、rFMQ、CALA和SCC-rFMQ的实验对比参考图;
图6为多智能体船过河游戏示意图;
图7为SCC-rFMQ和SMC在船过河游戏中的实验对比参考图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细说明。
针对连续动作空间上的多智能体协作问题,本发明提出一个智能体独立学***稳性和随机性问题[9]。在策略策略评估和更新层,将rFMQ策略[9]引入PHC(Policy Hill-Climbing)算法[24],以便它可以处理多状态环境中的多智能体协作问题。最后,通过与其他强化学习方法的比较,分析了SCC-rFMQ学习算法的性能。
接下来,对本发明运用到的技术和必要的基本概念进行说明:
1、连续动作合作式马尔科夫博弈
马尔科夫博弈(Markov game)是多智能体强化学习研究的基础,是重复博弈(Repeated game)和马尔科夫决策过程(Markov Decision Process)的结合。通常马尔科夫博弈可由下面的五元组<S,N,Ai,T,Ri>表示:
S:状态集合;
N:智能体集合;
Ai:智能体$i$的动作空间;
T:S×A×S→[0,1]:状态转移函数;
Ri:S×A→R:智能体i的回报函数.
这里A=A1×…×AN,并且对任意i∈N有Ai∈[0,1]。
在马尔科夫博弈中,所有智能体都可观察到全部状态s。状态转移函数和回报函数取决于各智能体的联合动作。称一个马尔科夫博弈为协作马尔科夫博弈(或联盟游戏),当指马尔科夫博弈中各智能体可按其所处环境分为多相互竞争的多个组,每组智能体共同完成同一个目标。特殊的,如果一个马尔科夫博弈中,所有的智能体的回报都永远相等,称这个游戏为完全协作马尔科夫博弈。智能体的动作空间Ai可以是连续的也可以是离散的。目前大部分强化学习工作都集中在离散的动作空间中。然而现实环境中,比如一些高精度控制类问题,其动作的轻微改变可能会导致较大的损失。要解决这类问题,对连续动作空间做简单的离散化处理往往不尽人意,人们通常需要直接在整个连续的空间中寻找最优策略。
在协作式马尔科夫博弈中,智能体学习的一个常见的目标是通过独立学习去寻找帕累托最优解(Pareto-optimal solution)。帕累托最优解是指在该策略下,没有任何一个智能体可以在其它智能体回报不减少的情况下获得更高的期望回报。形式化的,策略(πi-i)是一个帕累托最优,当且仅当不存在任何一个策略(π′i,π′-i)使得对任何一个智能体i都有Ri(π′i,π′-i)≥Rii-i),并且其中存在一个严格大于的智能体。同纳什均衡策略不同,帕累托最优是从静态全局的角度来看待问题,是问题的最优解;而纳什均衡是从动态局部的角度来看待问题,是问题求解过程中的临时解。两个概念并无交集,例如在囚徒困境博弈中,背叛策略(D,D)为纳什均衡,而协作策略(C,C)为帕累托最优。但是需注意到帕累托最优并不等同于群体最优解,群体最优解和各智能体回报和最大的解。
在一个协作式马尔科夫博弈中,对强化学***稳性问题(non-stationarity problem)和随机性问题(Stochasticity problem)[9]。在单智能体学***稳性是算法可以学***稳问题和随机性问题可能会导致算法学习不到好的协作策略。
本发明提出一个协作算法来学习连续动作空间下的协作式马尔科夫博弈的帕累托最优策略的纳什均衡。
2、策略爬山算法(Policy Hill Climbing,PHC)
策略爬山算法PHC(Policy Hill Climbing)是梯度上升策略在Q学习中的简单扩展,用以混合策略上学习。对比Q学习,PHC智能体维持状态值估计Q(s,a)的同时还有一个混合策略π(s,a),表示智能体状态s下选择动作a的概率。然后与环境以及其它智能体交互,获得回报r和下一个状态s′。然后按照下式更新估计Q(s,a)和策略π(s,a),
Q(s,a)←(1-α)Q(s,a)+α(r+γmaxa′Q(s′,a′))
Figure BDA0001824274590000061
其中α和δ为学习率,γ为折扣因子,以及|As|为智能体在状态s下可选的动作的数目。估值Q(s,a)的更新与Q学习算法一致。从上式可以看出,混合策略的更新方式是逐步增加选择的Q最大的动作的概率,减少选择其他动作的概率。注意到,当学习率为最大值1时,PHC将等价于Q学习算法。在多智能体学习环境下,PHC智能体能够出学习对其它智能体的最佳响应的混合策略。
3、连续动作空间上的SMC学习算法
目前已有部分工作研究真实环境中的连续动作空间强化学习问题。SMC学习[20]是其中一个具有代表性的算法。该算法是一种Actor-Critic方法,通过序列蒙特卡罗(SMC)采样方法来近似连续空间上选择动作的概率分布。下面我们简要介绍该算法的学习流程。
SMC学习算法是一种基于采样的Actor-Critic方法。Actor-Critic架构的主要思路是策略的估计和策略的更新在独立的进程中分别学习,处理策略估计部分称为Critic,策略更新的部分称为Actor。在SMC学习算法中,Actor为蒙特卡洛抽样方法的随机策略。具体地,对任意状态s,对应一个从连续动作空间中随机采样得出的离散的动作集A(s)。集合中的每一个动作样本ai∈A(s)对应一个重要性权重ωi。在动作采样过程中,Actor按照权重ωi随机的从动作集A(s)中选择一个动作。随后Critic按照回报估计响应状态的动作值函数Q。最后Actor再按照Critic提供的值估计函数按照重要性采样原则(ImportanceSampling principle)更新策略的概率分布。重要性采样原则是指具有高期望回报的动作的点被采样到的概率相对也应该更高一些。
在状态s中所有动作a∈A(s)对应的权重是该状态下连续动作空间的策略密度函数的一个估计。当动作集A(s)中一些动作对应的权重很小或者很大时,意味着集合A(s)包含一些具有特别小回报的动作,因此Actor需要重新采样一些新的动作来换掉这些不好的动作。这里重采样的规则也是按照重要性采样原则,即具有高期望回报的动作的附近的点被采样到的概率相对也应该更高。因为样本的权重与该行为的预期回报成正比,具有高期望回报点附近的概率密度函数也应该较高,要提高期望回报这些动作就需要被更频繁地采样和执行。
SMC学习算法是为单智能体环境的马尔科夫下学习最优设计的连续动作空间的学习算法,如前文所述,其不能被直接的应用在多智能体环境中。后面的工作中我们基于SMC的重采样机制,设计了一个针对连续动作空间中多智能体合作问题的强化学习算法。
4、协作博弈中的rFMQ算法
在多智能体环境中的协作性问题,目前已有很多显著的研究工作。其中一些工作通过改进Q学习算法来应用到协作式多智能体***中,如分布式Q学习[3]和频率最大Q值学习(FMQ)[25]。这里介绍FMQ的一个改进算法,递归FMQ算法(recursive FMQ,rFMQ[9]),用来帮助解决多智能体的协作问题。
rFMQ是一个为矩阵博弈设计的单状态的多智能体强化学习算法。在rFMQ中,对每一个动作a,算法在计算更新值函数Q(a)的同时,记录该动作下智能体曾经收到的最大回报Qmax(a)(注意到单状态环境下Q值就是对即时回报r的估计)。频率F(a)为算法对在选择动作a时收到最大回报在所有回报中所占的比例的估计。
具体的,F(a)按照学习率αf在学习过程中递归的更新,
Figure BDA0001824274590000071
这里r为当前状态下选择动作$a$时收到的回报,需注意其在多智能体环境中由各智能体的联合动作决定。rFMQ的关键思想是按照频率F(a)去权衡该动作下的期望回报Q(a)和最高回报Qmax(a),即E(a)=(1-F(a))Q(a)+F(a)Qmax(a),然后按照加权后的回报E(a)选择下一步的动作。原rFMQ中的动作选择基于∈贪婪(∈-greedy)原则:依概率∈按照均匀分布从动作空间中选择动作,或者依概率1-∈从动作空间中选择具有最高的E值的动作。
简单的说,通过采用Q(a)和Qmax(a)的加权值E(a)选择动作,rFMQ增加了选择出现过最大回报的动作的概率。而在协作博弈中,其他智能体在该回报中对应的动作往往也是一个比较好的选择。因此这样做可以更好的应对多智能体协同过程中遇到的帕累托选择问题和非平稳问题。随机环境中存在这种可能性,某动作虽然曾经产生过很大的回报,但是其期望回报并不是最好的回报。rFMQ中递归减小式的权重设计,可以有效的防止算法收敛到这中动作中。该算法已经在Matignon等人[9]的工作中实验验证过可以解决在部分随机矩阵博弈的协作学***稳问题和随机性问题。
该算法最大的限制是其只能应用在纯策略的矩阵博弈中。为此,本发明将rFMQ中的递归最大值优先思想引入到PHC算法中,用来解决多状态下混合策略的协同学习问题。
5、分片双线性差值算法
分片双线性插值算法又称双线型内插值算法,是由两个变量的插值函数的线性插值扩展,其核心思想是在两个方向分别进行一次线性插值。分片双线性插值作为数值分析中的一种插值算法,广泛应用在信号处理,数字图像和视频处理等方面。
如图1所示,对于目的点C=(x,y)(图中中间的点所示),根据与之相邻的最近的四个已知点A11=(x1,y1),A12=(x1,y2),A21=(x2,y1)和A22=(x2,y2)的值分别为f(A11),f(A12),f(A21)和f(A22),这四个点构成一个平行于坐标轴的矩形,使用双线性插值算法计算值f(C)。首先做两次线性插值,分别求出点B1=(x,y1)和点B2=(x,y2)(图中C点垂直两侧的点)的插值,然后再用这两个点再做一次线性插值,就可以求出点C=(x,y)的插值。具体的,
Figure BDA0001824274590000081
Figure BDA0001824274590000082
Figure BDA0001824274590000083
上述步骤可简化为以下矩阵乘的形式,
Figure BDA0001824274590000084
使用分片双线性插值可以生成连续的函数,常被用来做图像的缩放。本发明使分片双线性插值算法连续化两个经典的离散矩阵游戏,然后用连续化后的游戏来检验本发明提出的SCC-rFMQ方法的性能。
以下对本发明进行详细说明:
受SMC学***稳性问题和随机性问题,本发明在这两层中各引入了相应的协作机制:可变探索率机制和递归最大值优先机制。在动作集修正层,提出一种新的重采样策略,协作式重采样策略(Coordination Resample),其使用可变的探索率来解决多智能体环境下连续动作空间中的动作选择问题。而在策略评估和更新层,本发明将rFMQ算法中的递归最大值优先思想引入到爬山算法(PHC[24])中,用来解决马尔科夫博弈中的策略评估问题。
作为本发明的一个实施例,本例SCC-rFMQ的具体算法框架见算法1,
算法1 n样本SCC-rFMQ智能体i的学习动态
Figure BDA0001824274590000085
Figure BDA0001824274590000091
如图2所示,在本发明SCC-rFMQ中,首先初始化采样的动作集合(步骤(1))。本例将各状态最开始的采样动作集Ai(s)可设置为连续动作空间Ai(s)中等距离采样的n个动作。步骤(2):初始化其它参数。本例按照第(2)步设定的值进行初始化。其中Qi(s,a)、
Figure BDA0001824274590000092
和Ei(s,a)分别为智能体i在状态s下关于动作a的期望回报、历史最大回报和加权平均回报,Vi(s)为i在s下的平均期望回报,πi(s,a)为在状态s下选择a的概率,Fi(s,a)为出现最大值的频率的估计,li(s)为探索率。第(3)步为本发明方法的主要学习过程。本发明在每一轮非终止态上的学习包含两个关键步骤:动作集修正步骤(第3.2.1步)和策略评估和更新步骤(第3.2.2步)。在动作集修正步骤中,算法首先判断是否需要更新动作集,若需要则更新动作,否则直接跳过该层。本例使用协作式采样策略进行动作集的修正(具体见算法2))。本例的判定条件可依环境而定。在本例的实验部分,本发明使用一个较为简单的判定条件,即每固定次数次学习(c=200)就更新一次动作集,因为在PHC类具有固定的策略更新率的算法中,c=200次已经足够使算法学习到相对准确的估计值了。之后是策略评估和更新层。在该层中,对任意的动作a∈Ai(s)按照改进后的PHC算法,也就是多状态rFMQ(具体见算法3))评估Qi(s,a)并更新策略πi(s,a)。本发明SCC-rFMQ的其它步骤同传统的多状态多智能体马尔科夫博弈的强化学习算法相同,因此不做详细的介绍。本例在下面详细介绍算法2和3。
1、协作式重采样策略
本例SCC-rFMQ的第一个关键步骤:协作式重采样策略(Coordination Resamplestrategy)。在动作集修正层,需要考虑两个问题:一个是如何去寻找一个比当前策的动作集更好动作集;另一个是如何有效的协作来保证算法最终能够学***均期望回报大于历史上其他动作集的平均期望回报时,选择更小的探索范围,反之则增加探索范围。这样设计的初衷同SMC学***稳性和可能导致当前最大估值的动作在将来变成不好的动作。此外,WoLM策略还可以增加算法寻找到全局最优的机率。算法2是该协作式重采样策略的具体过程。
算法2协作式重采样策略
Figure BDA0001824274590000101
首先使用WoLM原则更新探索率li(s)(第1步):如果当前动作集的平均期望回报
Figure BDA0001824274590000102
大于或等于之前的各动作集的累计平均期望回报Vi(s),则减少探索率li(s)为li(s)δdd<1),否则增加li(s)为li(s)δll>1)。这里δl和δd为两个正的实数。在算法1中li(s)的初始值设为1/2,目的是在算法前期有个较大的探索范围。随后第2步更新累计平均期望回报Vi(s),其中αs为学***稳性和随机性问题,同时可以避免过早的收敛到局部最优(从个体角度是局部最优,从多智能体角度即帕累托选择问题)。
2、多状态rFMQ策略
本发明SCC-rFMQ的第二个关键部分:多状态rFMQ策略。结合rFMQ的递归最大值优先思想,本发明扩展PHC算法[24]到多智能体协作博弈中。PHC算法是一个在多状态多智能体环境中学习混合策略的强化学习算法,虽然在竞争的环境中有可能会不收敛,但是在协作式博弈中算法是能收敛的。同时递归最大值优先思想的引入也可以保证算法在智能体独立学习中学习到更好的策略。此外,由于SCC-rFMQ的重采样机制,原则上也不需要这一步骤中算法能严格的保证收敛,只需要具有最高回报的动作能被最高的概率的选择就可以。算法3是多状态rFMQ策略的具体描述。
算法3智能体i的多状态rFMQ策略
Figure BDA0001824274590000111
本方法中,首先判断当前的动作集是不是更新过,若更新过则初始化当前状态下所有动作对应的Fi(s,a)、
Figure BDA0001824274590000112
和Ei(s,a),否则直接跳过(第1步)。然后按照一定的概率使用混合策略πi(s,a)选择动作a,并执行(第2步)。接着从环境中观察到回报r和下一步状态s′,并按照Q学习方法更新当前s和a对应的状态动作值Qi(s,a)(第3步)。这两步与传统的Q学习方法一样,这里不做详细描述。第4步和第5步按照递归最大值优先思想估计Ei并更新策略πi(s,a),这里参数αFπ∈(0,1)为学习率。不同于rFMQ,这里使用长期最大回报
Figure BDA0001824274590000121
来表述状态s下动作a曾经得到的最大的长期回报,这里/>
Figure BDA0001824274590000122
记录动作a下r+γmaxa′Qi(s′,a′)的最大值。这样做是对Q学习在多状态环境中的一个自然扩展。其它变量如,Fi(s,a)、/>
Figure BDA0001824274590000123
和Ei(s,a)的更新同原始的rFMQ一样。最后依据Ei(s,a)使用PHC策略更新策略πi(s,a)(第5步),即增加选择具有最大Ei(s,a)值的动作的概率,同时选择减小其它动作的概率。通过将单状态的rFMQ递归最大值优先思想引入到PHC学习中,算法可以有效的解决复杂环境中多智能体的协作问题。
最后,很对本发明的效果进行了实验与仿真,从而说明其性能和技术效果。
1.实验与仿真
本例通过与其它相关算法比较,检验本发明SCC-rFMQ算法的性能。注意到大多数相关工作都是基于两个智能体环境的[7-9]。本发明针对单状态和多状态的环境,分别构建了两个具有代表性的多智能体游戏:对单状态环境,本发明基于两个经典的矩阵博弈游戏,针对性的够造了两个满足非平稳性和随机性的连续动作空间上的游戏;对于多状态的环境,本发明使用一个改进版的船过河游戏[20,26]来检验算法的性能。
1.1单状态协作博弈——爬山游戏
首先考虑单状态的游戏环境。本发明将表1和2中的两个经典的矩阵博弈游戏使用分片双线性差值技术转化的连续动作空间上的游戏。这两个矩阵游戏因其简单但具备各种导致协作失败的性质,如非平稳性和随机性,在离散动作的协作学***稳性问题的能力,PSCG还可用于测试解决随机性问题的能力。
表1爬山游戏(CG,Climbing Game)
Figure BDA0001824274590000124
表2半随机爬山游戏(PSCG,Partially Stochastic Climbing Game)
Figure BDA0001824274590000125
1.1.1游戏描述:
爬山游戏(CG,The Climbing Games,表1是一个完全协作式的矩阵博弈游戏。游戏中,每个智能体有A,B和C三个动作选项,矩阵中的值为联合动作对应的回报。Kapetanakis等人[25]提出的半随机爬山游戏(PSCG,Partially Stochastic CG,表2)是CG游戏的一个变种。不同于CG游戏,PSCG的联合动作<B,B>对应的回报为等概率的取14或0。从统计上来说,PSCG和CG游戏的平均回报是相等的,因为智能体在两个游戏中持续选择<B,B>后的平均回报都是7。这两游戏虽然简单,但是具有一些很有意思的特性。首先,CG和PSCG都有两个纳什均衡点,即<A,A>和<B,B>,其中<A,A>是帕累托最优。此外如果每个智能体都随机选择动作,那么最终回报最高的联合策略不是<A,A>或<B,B>,而是<C,C>。这些性质凸显了非平稳性的影响,将导致一些单智能体的学习算法无法学习到帕累托最优。此外对PSCG,由于14远远大于其他的回报,其随机性还会增加算法陷入到<B,B>的机率。
为了验证本发明SCC-rFMQ在连续动作空间上解决协作问题的能力,这里需要将这两个游戏连续化。首先将CG和PSCG中的动作用一个连续变量ai∈[0,1]表示,其中ai=0,ai=0.5和ai=1分别代表动作A,B和C。同时,定义智能体的回报r为[0,1]到R上的映射r:[0,1]×[0,1]→R。该映射满足ai∈{0,0.5,1}时,r(a1,a2)等于原CG和PSCG对应的回报。对于
Figure BDA0001824274590000131
时的情况,本发明使用分片双线性差值算法[30]进行连续化。在数值分析领域,分片双线性插值是线性插值在二元函数定义域空间上的一个扩展。图3为使用分片双线性插值算法连续化后的CG游戏的回报函数在动作空间上取值的颜色图。图3中,坐标a1和a2分别代表智能体1和2的连续动作,而联合动作对应的回报值的大小按颜色的深浅表示。从图中可观察出,同原CG游戏一样,连续化版的CG游戏有两个平衡点:全局最优r(0,0)=11和局部最优r(0.5,0.5)=7,其中r(0,0)=11还是帕累托最优。注意到梯度指向帕累托最优点(0,0)的所有点所占的面积,即点(0,0),(0.5,0)和(0,0.5)围成的三角形所占的面积,不到全部动作空间的1/8,这将导致传统的基于梯度的算法更容易学***均回报的话,局部最优点(0.5,0.5)附近的平均回报也要高于全局最优点,这也会影响基于随机采样类学习算法的学习性能,如果不考虑对手策略,算法将很容易收敛到局部最优。
对PSCG游戏的连续化,首先用分片双线性插值算法分别对r(0.5,0.5)=14和0构建两个确定性的连续动作游戏,然后对任意一个联合动作按照等概率从这两个确定性游戏中随机读取回报。这里不再详细描述。
1.1.2实验仿真及结果
本例在连续化的CG和PSCG游戏上对SCC-rFMQ对比几个经典的算法,即SMC[20]、rFMQ[9]和CALA[16,22],其中SMC和CALA为两个经典的连续动作空间上的单智能体学习算法,而rFMQ为一个常用的离散动作空间上的多智能体协作算法。
各学***起见,对SMC和rFMQ中与SCC-rFMQ的相同参数(如αQ和γ)采用一样的设置,而对其他参数本发明通过多次实验选取最好的参数配置。对所有算法,参数αQ在连续版FCG和PSCG中取αQ=0.5,在船过河游戏中αQ=0.9。算法SMC的参数σ和τ的设置同原论文(Lazaric等[20])。算法CALA的参数配置同原论文(de Jong等[22])。
表3参数设置
Figure BDA0001824274590000141
图4给出各方法在连续化版的CG游戏中50次平均实验结果,其中,横坐标Interaction Round为算法交互次数,纵坐标Reward为回报。这里使用智能体在每轮收到的回报(纵坐标)作为性能的评估指标。对于rFMQ算法,本例分别在连续空间上均匀取5个和10个动作作实验。这些动作对应的回报同连续版的CG和PSCG一样。为了公平起见,SMC和SCC-rFMQ也用5个和10个样本初始化,且各组实验的初始动作集避开了全局最优的点。从图4中可以看出,在所有情况下,SCC-rFMQ算法都要显着优于其他三种算法,其次是SMC学习,而CALA性能最差。此外从图4中还可观察得出,算法SCC-rFMQ,SMC和rFMQ在更多样本或动作时结果要更好。
图5给出各方法在连续版PSCG游戏上的实验结果,其中,横坐标InteractionRound为算法交互次数,纵坐标Aerage Reward为平均回报。实验设置同连续版CG游戏一样。考虑到游戏的随机性,这里使用累积平均回报(纵坐标)作为各算法实验结果的评估指标。同样各算法取50次实验的平均结果。从图5中可得,各实验的结果与连续的CG游戏相似,除了需要更多的收敛时间。此外,对SMC、rFMQ和CALA,其在连续的PSCG游戏上的实验结果要稍微好于连续CG。他们的回报结果更接近7,而且对SMC和rFMQ,不同数目的采样样本或动作对实验结果的影响也相对小一些。综上,SCC-rFMQ算法在处理单状态连续动作空间的多智能体合作问题上要优于其它的几个算法。
1.2多状态协作博弈——船过河游戏
为了进一步检验本发明的性能,本发明考虑一个经典的多状态连续动作空间游戏,即船过河游戏。这个问题最初由Jouffe[26]和Lazaric[20]中提出,本发明以一种更一般的方式重新定义它。
1.2.1游戏描述
船过河游戏的目标是控制船的速度和方向让其从河一边的码头运动到河对岸的码头(如图6所示)。游戏中的船受前进和转向两个发动机控制,分别控制船的前进加速度和转向加速度。这里两个发动机由两个独立的智能体分别控制,因此,两个智能体需要学习如何协作而得到共同的目的。船的状态可由四元组<x,y,θ,v>表示,其中x∈[0,50]和y∈[0,100]表示船的位置坐标,θ∈[-π/3,π/3]为船的角度(船前进的方向),而v∈[2,5]为船的速度。为增加游戏难度,定义河水的流速为E(x)=fc[x/50-(x/50)2],其中fc为一个服从正态分布N(4,0.32)的随机变量。这样的假设更符合实际环境,一方面水的流速在河中央高两边低,另一方面具有一定的随机性。同时,也为本发明学习到最优提供了一定的挑战。两个智能体(控制器)的动作定义为两个连续变量a∈[-1,2]和ω∈[-1,1],其中a为船的前进加速度,ω为船的角速度。船两头的码头中心坐标分别为(0,50)和(50,50)。船在每一时刻的状态变量按照下式更新,
Figure BDA0001824274590000151
其中ΠΔ为投影映射,将定义域上的值映射到区间Δ中,用来防止变量超出规定范围。
回报函数分为两个域定义。成功域Zs对应河对岸的码头区域,而失败域Zf为所有其它位置。回报函数可形式化地定义为,
Figure BDA0001824274590000152
其中D(x,y)=20-2|y-50|为一个回报按输入从0到20逐渐递减的方程,其输入表示位置离码头中心的距离。这里,Zs={(x,y)|x=0,y∈(40,60)}。
1.2.2实验仿真及结果
实验中,本发明使用两个智能体分别控制变量a和ω,所以该游戏可以描述为两个智能体的多状态连续动作空间上的一个协作游戏。其目的是训练这两个智能体相互协作以获得尽可能高的回报。位置状态变量x和y按照1离散化,其它状态变量θ和v按其定义区间等分为10个。总计该实验一共有500000个状态。初始状态定义为<0,50,0,0>。该实验配置能保证船按照方程(1)在每一次更新状态时不会出现状态不变的情况,从而导致实验陷入状态的无限循环中。接下来,本发明在不同采样数目下对比SCC-rFMQ和SMC[20]。事实上,本发明也做了其他经典的多智能体算法的相关实验,如WoLF-PHC[24],分布式Q学习[3]和Hysteretic learners[4],并发现这些传统的离散动作空间上的算法在该游戏中具有很差的收敛性,因为游戏环境的大规模状态。其他算法,如rFMQ和CALA,仅适用于单状态游戏中。因此这里不对这些算法做详细对比,仅使用SMC算法来代表那些设计在单智能体连续动作空间的游戏环境中的相关算法。各算法的相关参数设计参见表3。
图6给出了算法SCC-rFMQ和SMC在不同数目采样样本下的实验效果对比,其中,横坐标Episodes为算法学***均结果。注意到20是理论的最高回报值。观察图6可得,在所有采样数目中,SCC-rFMQ在收敛速度和学习的最终回报两个方面都要由于SMC算法。在4个和6个采样环境中,SCC-rFMQ最终都成功的学习到了最高的回报20,随后是6个采样动作的SMC(学习到19附近)。效果最差的是4个采样动作的SMC,收敛到13附近。此外,随着采样数目的增加,SCC-rFMQ的收敛速度越慢,而SMC不具有这样的现象。综上,在连续动作空间中的协作游戏中,SCC-rFMQ要优于SMC这种没有协作机制的学习算法。
2实验结果分析
SCC-rFMQ算法的收敛时间取决于两个因素:采样数目和两次采样期间的学习次数。尽管较高的采样数目能增加算法的探索能力,因此也提高了算法学习到更好的回报的概率。同时,也会减少算法对环境变化的应对能力,因为更多的采样次数意味着对每个动作观察次数的降低,因此增加了算法收敛的时间。所以在图4、5和7中,具有更多采样动作的SCC-rFMQ算法的学习速度要慢于较少采样的情况。
图4和5中其它对比实验的不好表现主要归功于游戏在局部最优点<0.5,0.5>附近的低梯度以及其附近的高平均回报。SMC和CALA由于并非为多智能体协作问题设计,无法应对环境的变化,因此他们很容易陷入局部最优陷阱。已分析过,在连续的CG和PSCG游戏中,梯度指向全局最优的点占所有面积的1/8,而回报大于7的点占所有面积的不到1/1000。对rFMQ算法,很难让采样动作包含全局最优,所以其效果较差。此外,对比图3和4,发现除了SCC-rFMQ,所有算法在连续CG游戏中的回报都要稍微优于连续PSCG,这是因为连续PSCG的随机性导致游戏在局部最优<0.5,0.5>周围的梯度不再那么低,使得各算法能有更高的概率学习到局部最优,从而获得比连续CG游戏更高的回报。
同图4和5中的实验一样,SCC-rFMQ在船过河游戏中的实验表现要优于SMC。SCC-rFMQ在4和6两个采样数目情况下都较快的学习到了全局最优。SMC在图7中的较差表现主要是因为游戏中水流的随机性(受参数fc影响),导致算法无法应对试验环境的变化。
3、总结
本章提出SCC-rFMQ方法用来解决连续动作空间中马尔科夫游戏的协作问题。SCC-rFMQ算法包含两个关键部分:协作式重采样策略和多状态rFMQ策略。协作式从采样策略通过重采样可用的动作集解决连续动作空间问题,而多状态rFMQ策略评估采样到的动作集并给出相应的协作策略。通过对两个部分分别考虑相应的协作机制,SCC-rFMA算法可以很好的处理连续动作空间中多智能体的协作问题。充足的仿真实验也表明,SCC-rFMQ要优于其他的强化学习方法。
以上所述之具体实施方式为本发明的较佳实施方式,并非以此限定本发明的具体实施范围,本发明的范围包括并不限于本具体实施方式,凡依照本发明所作的等效变化均在本发明的保护范围内。
本发明中涉及到的标号对应的参考文献如下:
[1]Riedmiller M,Gabel T,Hafner R,et al.Reinforcement Learning forRobot Soccer[J].Auton.Robots,2009,27(1):55–73.
[2]Meng J,Williams D,Shen C.Channels matter:Multimodal connectedness,types of co-players and social capital for Multiplayer Online Battle Arenagamers[J].Computers in Human Behavior,2015,52:190–199.
[3]Lauer M,Riedmiller M A.An Algorithm for Distributed ReinforcementLearning in Cooperative Multi-Agent Systems[C].In Proceedings of theSeventeenth International Conference on Machine Learning,San Francisco,CA,USA,2000:535–542.
[4]Matignon L,Laurent G J,Fort-Piat N L.Hysteretic q-learning:analgorithm for decentralized reinforcement learning in cooperative multi-agentteams[C].In IEEE/RSJ International Conference on Intelligent Robots andSystems IROS,2007:64–69.
[5]Panait L,Sullivan K,Luke S.Lenient learners in cooperativemultiagent systems[C].In International Joint Conference on Autonomous Agentsand Multiagent Systems,2006:801–803.
[6]Bloembergen D,Kaisers M,Tuyls K.Empirical and Theoretical Supportfor Lenient Learning[C].In The 10th International Conference on AutonomousAgents and Multiagent Systems Volume 3,2011:1105–1106.
[7]Wei E,Luke S.Lenient Learning in Independent-learner StochasticCooperative Games[J].J.Mach.Learn.Res.,2016,17(1):2914–2955.
[8]Palmer G,Tuyls K,Bloembergen D,et al.Lenient Multi-Agent DeepReinforcement Learning[J].CoRR,2017,abs/1707.04402.
[9]Matignon L,Laurent G j,Le fort piat N.Review:IndependentReinforcement Learners in Cooperative Markov Games:A Survey RegardingCoordination Problems[J].Knowl.Eng.Rev.,2012,27(1):1–31.
[10]PazisJ,LagoudakisMG.Binary Action Search for Learning Continuous-action Control Policies[C].In Proceedings of the 26th Annual InternationalConference on Machine Learning,New York,NY,USA,2009:793–800.
[11]Pazis J,Lagoudakis M G.Reinforcement learning in multidimensionalcontinuous action spaces[C].In IEEE Symposium on Adaptive DynamicProgramming&Reinforcement Learning,2011:97–104.
[12]Sutton R S,Maei H R,Precup D,et al.Fast Gradient-descent Methodsfor Temporal-difference Learning with Linear Function Approximation[C].InProceedings of the 26th Annual International Conference on Machine Learning,2009:993–1000.
[13]Pazis J,Parr R.Generalized Value Functions for Large Action Sets[C].In International Conference on Machine Learning,ICML 2011,Bellevue,Washington,USA,2011:1185–1192.
[14]Lillicrap T P,Hunt J J,Pritzel A,et al.Continuous control withdeep reinforcement learning[J].Computer Science,2015,8(6):A187.
[15]KONDA V R.Actor-critic algorithms[J].SIAM Journal on Control andOptimization,2003,42(4).
[16]Thathachar M A L,Sastry P S.Networks of Learning Automata:Techniques for Online Stochastic Optimization[J].Kluwer Academic Publishers,2004.
[17]Peters J,Schaal S.2008 Special Issue:Reinforcement Learning ofMotor Skills with Policy Gradients[J].Neural Netw.,2008,21(4).
[18]van Hasselt H.Reinforcement Learning in Continuous State andAction Spaces[M].In Reinforcement Learning:State-of-the-Art.Berlin,Heidelberg:Springer Berlin Heidelberg,2012:207–251.
[19]Sallans B,Hinton G E.Reinforcement Learning with Factored Statesand Actions[J].J.Mach.Learn.Res.,2004,5:1063–1088.
[20]Lazaric A,Restelli M,Bonarini A.Reinforcement Learning inContinuous Action Spaces through Sequential Monte Carlo Methods[C].InConference on Neural Information Processing Systems,Vancouver,BritishColumbia,Canada,2007:833–840
[21]Lowe R,Wu Y,Tamar A,et al.Multi-Agent Actor-Critic for MixedCooperative-Competitive Environments[J].CoRR,2017,abs/1706.02275.
[22]de Jong S,Tuyls K,Verbeeck K.Artificial Agents Learning HumanFairness[C].In Proceedings of the 7th International Joint Conference onAutonomous Agents and Multiagent Systems.Volume 2,2008:863–870.
[23]Galstyan A.Continuous Strategy Replicator Dynamics for Multi-agent Q-learning[J].Autonomous Agents and Multi-Agent Systems,2013,26(1):37–53.
[24]BowlingM,Veloso.Multiagent learning using a variable learningrate[J].Artificial Intelligence,2002,136(2):215–250.
[25]Kapetanakis S,Kudenko D.Reinforcement learning of coordination incooperative multi-agent systems[J].AAAI/IAAI,2002,2002:326–331.
[26]Jouffe L.Fuzzy Inference System Learning by Reinforcement Methods[J].Trans.Sys.Man Cyber Part C,1998,28(3):338–355.
[27]Claus C,Boutilier C.The Dynamics of Reinforcement Learning inCooperative Multiagent Systems[C].In Proceedings of the Fifteenth National/Tenth Conference on Artificial Intelligence/Innovative Applications ofArtificial Intelligence,Menlo Park,CA,USA,1998:746–752.
[28]Lauer M,Riedmiller M.Reinforcement learning for stochasticcooperative multi-agent-systems[C].In Proceedings of the Third InternationalJoint Conference on Autonomous Agents and Multiagent Systems,2004.AAMAS2004.,2004:1516–1517.[29]Carpenter M,Kudenko D.Baselines for Joint-ActionReinforcement Learning of Coordination in Cooperative Multi-agent Systems[M].In Adaptive Agents and Multi-Agent Systems II:Adaptation and Multi-AgentLearning.Berlin Heidelberg:Springer,2005:55–72.
[30]Saha Ray S.Numerical analysis with algorithms and programming[M].Boca Raton:CRC Press,Taylor&Francis Group,2016.

Claims (8)

1.多状态连续动作空间的合作式方法,其特征在于包括如下步骤:
(1):对于任意状态s∈S,初始化采样的动作集Ai(s)为集智能体i的连续动作空间Ai(s)中随机样的n个动作,其中,S为状态集合;
(2):对于对任意的状态s∈S和动作a∈Ai(s),初始化智能体i在状态s下关于动作a的期望回报Qi(s,a),历史最大回报
Figure FDA0004043643810000011
和加权平均回报Ei(s,a),智能体i在状态s下的平均期望回报Vi(s),初始化在状态s下选择动作a的概率πi(s,a),出现回报最大值的频率的估计Fi(s,a),及探索率li(s)为设定值;
(3):重复执行以下步骤直至智能体i在状态s下的回报收敛,
(31):初始化状态s←s0
(32):重复以下步骤直到状态s到达终止态
(321):判断是否需要更新动作集,如果否,执行步骤(322),如果是,对动作集进行重采样,保留最大回报动作,并在该动作一定范围内采集新的动作作为新的动作集,然后执行步骤(322);
(322):对于任意的a∈Ai(s),按照具有最高回报的动作被最高概率的选择原则更新πi(s,a)和Qi(s,a);
(323):更新状态:s←s′,
在步骤(1)中,设置各状态最开始的采样动作集Ai(s)为连续动作空间Ai(s)中等距离采样的n个动作,
采用分片双线性差值算法将n个离散动作转化为连续动作空间上的连续动作。
2.根据权利要求1所述的多状态连续动作空间的合作式方法,其特征在于:在步骤(31)中,通过协作式采样策略进行重采样,更新动作集,采用可变的探索率li(s)控制所述协作式采样策略在最大回报动作周围采样新动作的范围。
3.根据权利要求2所述的多状态连续动作空间的合作式方法,其特征在于:所述协作式采样策略的处理方法为:
A1:更新探索率li(s):
如果当前动作集的平均期望回报
Figure FDA0004043643810000012
大于或等于之前的各动作集的累计平均期望回报Vi(s),则减少探索率li(s)为li(s)δd,否则增加li(s)为li(s)δl,其中,δl为大于1的正实数,δd为小于1的正实数;
A2:更新累计平均期望回报:
Figure FDA0004043643810000013
其中αs为学习率;
A3:按照探索率li(s)重新采样动作集:
计算当前回报最大的动作
Figure FDA0004043643810000021
保留当前集合中具有最大的期望回报的|Ai(s)|/3个动作,并从半径为li(s)的amax的邻域内随机选择2|Ai(s)|/3个新的动作,共同组成新的动作集;
A4:初始化每个动作新的动作下的策略πi(s,a)和对应的期望回报Qi(s,a)为起始的设定值。
4.根据权利要求2所述的多状态连续动作空间的合作式方法,其特征在于:在步骤(32)中,智能体i采用多状态递归频率最大Q值学习算法进行学习更新。
5.根据权利要求4所述的多状态连续动作空间的合作式方法,其特征在于:所述多状态递归频率最大Q值学习算法的处理方法为:
B1:判断当前的动作集是否更新过,如果否,直接执行步骤B2,如果是,初始化当前状态下所有动作对应的Fi(s,a)、
Figure FDA0004043643810000022
和Ei(s,a),然后执行步骤B2;
B2:以一定的探索率按照策略πi(s,a)选择状态s下的行为a∈Ai(s);
B3:从环境中观察到回报r和下一步状态s′,并更新当前s和a对应的状态动作值Qi(s,a):
Figure FDA0004043643810000023
其中,α为学习率,γ为折扣因子,
Figure FDA0004043643810000024
为下一步状态s′时,动作a’时的最大状态动作值;
B4:按照递归最大值优先思想估计Ei(s,a);
B5:依据Ei(s,a)使用策略爬山算法更新策略πi(s,a),即增加选择具有最大Ei(s,a)值的动作的概率,同时选择减小其它动作的概率。
6.一种实现权利要求1-5任一项所述的多状态连续动作空间的合作式方法的***,其特征在于,包括:
初始化动作集模块:用于对于任意状态s∈S,初始化采样的动作集Ai(s)为集智能体i的连续动作空间Ai(s)中随机样的n个动作;
初始化参数模块:对于对任意的状态s∈S和动作a∈Ai(s),初始化智能体i在状态s下关于动作a的期望回报Qi(s,a),历史最大回报
Figure FDA0004043643810000025
和加权平均回报Ei(s,a),智能体i在状态s下的平均期望回报Vi(s),初始化在状态s下选择动作a的概率πi(s,a),出现回报最大值的频率的估计Fi(s,a),及探索率li(s)为设定值;
收敛模块:用于重复执行以下单元直至智能体i在状态s下的回报收敛,
动作集修正单元:用于判断是否需要更新动作集,如果否,执行策略评估和更新单元,如果是,对动作集进行重采样,保留最大回报动作,并在该动作一定范围内采集新的动作作为新的动作集,然后执行策略评估和更新单元;
策略评估和更新单元:用于对于任意的a∈Ai(s),按照具有最高回报的动作被最高概率的选择原则更新πi(s,a)和Qi(s,a);
状态更新单元:用于更新状态s←s′。
7.根据权利要求6所述的***,其特征在于:所述动作集修正单元通过协作式采样策略进行重采样,更新动作集,采用可变的探索率li(s)控制所述协作式采样策略在最大回报动作周围采样新动作的范围。
8.根据权利要求7所述的***,其特征在于:所述策略评估和更新单元采用多状态递归频率最大Q值学习算法进行学习更新。
CN201880001580.2A 2018-08-01 2018-08-01 多状态连续动作空间的合作式方法及*** Active CN109511277B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/098103 WO2020024172A1 (zh) 2018-08-01 2018-08-01 多状态连续动作空间的合作式方法及***

Publications (2)

Publication Number Publication Date
CN109511277A CN109511277A (zh) 2019-03-22
CN109511277B true CN109511277B (zh) 2023-06-13

Family

ID=65756509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880001580.2A Active CN109511277B (zh) 2018-08-01 2018-08-01 多状态连续动作空间的合作式方法及***

Country Status (2)

Country Link
CN (1) CN109511277B (zh)
WO (1) WO2020024172A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109496305B (zh) * 2018-08-01 2022-05-13 东莞理工学院 一种社交网络舆论演变方法
CN109617968B (zh) * 2018-12-14 2019-10-29 启元世界(北京)信息技术服务有限公司 多智能体协作***及其智能体、智能体间的通信方法
CN110471297B (zh) * 2019-07-30 2020-08-11 清华大学 多智能体协同控制方法、***及设备
CN110994620A (zh) * 2019-11-16 2020-04-10 国网浙江省电力有限公司台州供电公司 一种基于Q-Learning算法的电网潮流智能调整方法
CN110996398A (zh) * 2019-12-16 2020-04-10 锐捷网络股份有限公司 一种无线网络资源调度方法及装置
CN111294242A (zh) * 2020-02-16 2020-06-16 湖南大学 一种提高多智能体***合作水平的多跳学习方法
CN111530080B (zh) * 2020-04-26 2021-03-26 苏州沁游网络科技有限公司 一种虚拟对象的行为控制方法、装置、设备及存储介质
CN112714165B (zh) * 2020-12-22 2023-04-04 声耕智能科技(西安)研究院有限公司 一种基于组合机制的分布式网络协作策略优化方法和装置
CN113689001B (zh) * 2021-08-30 2023-12-05 浙江大学 一种基于反事实遗憾最小化的虚拟自我对弈方法和装置
CN114845359A (zh) * 2022-03-14 2022-08-02 中国人民解放军军事科学院战争研究院 一种基于Nash Q-Learning的多智能异构网络选择方法
CN115309041A (zh) * 2022-06-06 2022-11-08 中国船舶集团有限公司***工程研究院 一种无人艇集群运行信息智能同步方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8948499B1 (en) * 2010-12-07 2015-02-03 Hrl Laboratories, Llc Method for online learning and recognition of visual behaviors
CN105959353A (zh) * 2016-04-22 2016-09-21 广东石油化工学院 基于平均强化学习和高斯过程回归的云作业接入控制方法
CN107734579A (zh) * 2017-10-16 2018-02-23 西北大学 一种基于马尔可夫决策过程的移动平台能耗优化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8948499B1 (en) * 2010-12-07 2015-02-03 Hrl Laboratories, Llc Method for online learning and recognition of visual behaviors
CN105959353A (zh) * 2016-04-22 2016-09-21 广东石油化工学院 基于平均强化学习和高斯过程回归的云作业接入控制方法
CN107734579A (zh) * 2017-10-16 2018-02-23 西北大学 一种基于马尔可夫决策过程的移动平台能耗优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SCC-rFMQ Learning in Cooperative Markov Games with Continuous Actions;Zhang chengwei 等;《In Proc. of the International Conference on Autonomous Agents and Multiagent Systems(AAMAS 2018)》;20180715;第2节 *
Zhang chengwei 等.SCC-rFMQ Learning in Cooperative Markov Games with Continuous Actions.《In Proc. of the International Conference on Autonomous Agents and Multiagent Systems(AAMAS 2018)》.2018, *
自主微小型移动机器人的协作学习;杨玉君 等;《计算机工程》;20030630;第29卷(第10期);第2.1.1节 *

Also Published As

Publication number Publication date
CN109511277A (zh) 2019-03-22
WO2020024172A1 (zh) 2020-02-06

Similar Documents

Publication Publication Date Title
CN109511277B (zh) 多状态连续动作空间的合作式方法及***
Oroojlooy et al. A review of cooperative multi-agent deep reinforcement learning
Powell Perspectives of approximate dynamic programming
Er et al. Online tuning of fuzzy inference systems using dynamic fuzzy Q-learning
Shi et al. An adaptive strategy selection method with reinforcement learning for robotic soccer games
JP2019079227A (ja) 状態遷移規則獲得装置、行動選択学習装置、行動選択装置、状態遷移規則獲得方法、行動選択方法、およびプログラム
Zhang et al. Clique-based cooperative multiagent reinforcement learning using factor graphs
Mguni et al. Timing is Everything: Learning to act selectively with costly actions and budgetary constraints
Zhang et al. SCC-rFMQ: a multiagent reinforcement learning method in cooperative Markov games with continuous actions
Barbara et al. On Robust Reinforcement Learning with Lipschitz-Bounded Policy Networks
Ansari et al. Language expansion in text-based games
KR20230079804A (ko) 상태 전이를 선형화하는 강화 학습에 기반한 전자 장치 및 그 방법
Jones et al. Data Driven Control of Interacting Two Tank Hybrid System using Deep Reinforcement Learning
Asperti et al. Microracer: a didactic environment for deep reinforcement learning
Yu et al. Adaptively shaping reinforcement learning agents via human reward
Han et al. Robot path planning in dynamic environments based on deep reinforcement learning
Gregor et al. Novelty detector for reinforcement learning based on forecasting
Marochko et al. Pseudorehearsal in actor-critic agents with neural network function approximation
Marochko et al. Pseudorehearsal in value function approximation
Kapoutsis et al. ACRE: Actor-Critic with Reward-Preserving Exploration
Leng et al. Simulation and reinforcement learning with soccer agents
Gatti et al. Reinforcement learning
Zhang et al. Scc-rfmq learning in cooperative markov games with continuous actions
Chen et al. Deep Recurrent Policy Networks for Planning Under Partial Observability
Hwang et al. A shaped-q learning for multi-agents systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant