CN109511277B

CN109511277B - 多状态连续动作空间的合作式方法及***

Info

Publication number: CN109511277B
Application number: CN201880001580.2A
Authority: CN
Inventors: 侯韩旭; 郝建业; 张程伟
Original assignee: Dongguan University of Technology
Current assignee: Dongguan University of Technology
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2023-06-13
Anticipated expiration: 2038-08-01
Also published as: CN109511277A; WO2020024172A1

Abstract

本发明提供一种多状态连续动作空间的合作式方法及***，属于强化学习领域。本发明方法包括如下步骤：对于任意状态集合中的状态，初始化动作集；对于任意状态集合中的状态和动作集中的动作，初始化相关参数；分别在动作集修正层和策略评估更新层构建相应的协作机制，直至智能体i在状态s下的回报收敛。本发明还提供了一种实现所述多状态连续动作空间的合作式方法的***。本发明的有益效果为：能够很好的处理连续动作空间中多智能体的协作问题。

Description

多状态连续动作空间的合作式方法及***

技术领域

本发明涉及强化学习领域，尤其涉及一种多状态连续动作空间的合作式方法及***。

背景技术

目前强化学***稳性和随机性问题，依旧是连续动作空间问题上的巨大挑战。

现实中有很多研究领域涉及到连续动作空间上的多智能体协作问题，如机器人足球[1]和多人在线竞技游戏[2]。在这类问题中，智能体不仅需要解决连续动作空间上的无穷大动作集选择问题，还需要同其他智能体有效地协作来寻求群体回报最优。

到目前为止，已经有很多研究用于解决多智能体环境情况下的协作问题。最常见的为基于Q学习扩展类的算法，如Distributed-Q学习[3]、Hysteretic-Q学习[4]、Lenient学习[5]、Lenient-FAQ[6]、LMRL2[7]、Lenient-DQN[8]和rFMQ[9]。这些算法能解决一定程度的多智能体***的协作问题，但是它们只能应用在离散的动作空间中。

另一方面，一些工作集中于研究连续动作空间下的控制问题，如值函数近似(Value Approximation)算法[10-14]和策略近似(Policy Approximation)算法[15-18]。值函数近似类算法按照训练样本估计在状态-动作空间对应的值函数，而策略近似类算法将策略定义为连续空间上的某种分布的概率密度函数，然后直接学***性的学习算法[22]，以及使用连续玻尔兹曼探索策略中算法在稳定状态下的理论模型分析[23]。

发明内容

为解决现有技术中的问题，本发明提供一种多状态连续动作空间的合作式方法及***。

本发明多状态连续动作空间的合作式方法包括如下步骤：

(1)：对于任意状态s∈S，初始化采样的动作集A_i(s)为集智能体i的连续动作空间

中随机样的n个动作，其中，S为状态集合；

(2)：对于对任意的状态s∈S和动作a∈A_i(s)，初始化智能体i在状态s下关于动作a的期望回报Q_i(s,a)，历史最大回报

和加权平均回报E_i(s,a)，智能体i在状态s下的平均期望回报V_i(s)，初始化在状态s下选择动作a的概率π_i(s,a)，出现回报最大值的频率的估计F_i(s,a)，及探索率l_i(s)为设定值；

(3)：重复执行以下步骤直至智能体i在状态s下的回报收敛，

(31)：初始化状态s←s₀；

(32)：重复以下步骤直到状态s到达终止态

(321)：判断是否需要更新动作集，如果否，执行步骤(322)，如果是，对动作集进行重采样，保留最大回报动作，并在该动作一定范围内采集新的动作作为新的动作集，然后执行步骤(322)；

(322)：对于任意的a∈A_i(s)，按照具有最高回报的动作被最高概率的选择原则更新π_i(s,a)和Q_i(s,a)；

(323)：更新状态:s←s′。

本发明作进一步改进，在步骤(1)中，设置各状态最开始的采样动作集A_i(s)为连续动作空间

中等距离采样的n个动作。

本发明作进一步改进，采用分片双线性差值算法将n个离散动作转化为连续动作空间上的连续动作。

本发明作进一步改进，在步骤(31)中，通过协作式采样策略进行重采样，更新动作集，采用可变的探索率l_i(s)控制所述协作式采样策略在最大回报动作周围采样新动作的范围。

本发明作进一步改进，所述协作式采样策略的处理方法为：

A1：更新探索率l_i(s):

如果当前动作集的平均期望回报

大于或等于之前的各动作集的累计平均期望回报V_i(s)，则减少探索率l_i(s)为l_i(s)δ_d，否则增加l_i(s)为l_i(s)δ_l，其中，δ_l为大于1的正实数，δ_d为小于1的正实数；

A2：更新累计平均期望回报：

其中α_s为学习率；

A3：按照探索率l_i(s)重新采样动作集：

计算当前回报最大的动作

保留当前集合中具有最大的期望回报的|A_i(s)|/3个动作，并从半径为l_i(s)的a_max的邻域内随机选择2|A_i(s)|/3个新的动作，共同组成新的动作集；

A4：初始化每个动作新的动作下的策略π_i(s,a)和对应的期望回报Q_i(s,a)为起始的设定值。

本发明作进一步改进，在步骤(32)中，智能体i采用多状态递归频率最大Q值学习算法进行学习更新。

本发明作进一步改进，所述多状态递归频率最大Q值学习算法的处理方法为：

B1：判断当前的动作集是否更新过，如果否，直接执行步骤B2，如果是，初始化当前状态下所有动作对应的F_i(s,a)、

和E_i(s,a)，然后执行步骤B2；/>

B2：以一定的探索率按照策略π_i(s,a)选择状态s下的行为a∈A_i(s)；

B3：从环境中观察到回报r和下一步状态s′，并更新当前s和a对应的状态动作值Q_i(s,a)：Q_i(s,a)←(1-α)Q_i(s,a)+α(r+γmax_a′Q_i(s′,a′))，

其中，α为学习率，γ为折扣因子，

为下一步状态s′时，动作a’时的最大状态动作值；

B4：按照递归最大值优先思想估计E_i(s,a)；

B5：依据E_i(s,a)使用策略爬山算法更新策略π_i(s,a)，即增加选择具有最大E_i(s,a)值的动作的概率，同时选择减小其它动作的概率。

本发明还提供了一种实现所述多状态连续动作空间的合作式方法的***，包括：

初始化动作集模块：用于对于任意状态s∈S，初始化采样的动作集A_i(s)为集智能体i的连续动作空间A_i(s)中随机样的n个动作；

初始化参数模块：对于对任意的状态s∈S和动作a∈A_i(s)，初始化智能体i在状态s下关于动作a的期望回报Q_i(s,a)，历史最大回报

收敛模块：用于重复执行以下单元直至智能体i在状态s下的回报收敛，

动作集修正单元：用于判断是否需要更新动作集，如果否，执行策略评估和更新单元，如果是，对动作集进行重采样，保留最大回报动作，并在该动作一定范围内采集新的动作作为新的动作集，然后执行策略评估和更新单元；

策略评估和更新单元：用于对于任意的a∈A_i(s)，按照具有最高回报的动作被最高概率的选择原则更新π_i(s,a)和Q_i(s,a)；

状态更新单元：用于更新状态s←s′。

本发明作进一步改进，所述动作集修正单元通过协作式采样策略进行重采样，更新动作集，采用可变的探索率l_i(s)控制所述协作式采样策略在最大回报动作周围采样新动作的范围。

本发明作进一步改进，所述策略评估和更新单元采用多状态递归频率最大Q值学习算法进行学习更新。

与现有技术相比，本发明的有益效果是：解决连续动作空间中马尔科夫游戏的协作问题，本发明的协作式从采样策略通过重采样可用的动作集解决连续动作空间问题，而多状态递归频率最大Q值学习算法评估采样到的动作集并给出相应的协作策略。通过对两个部分分别考虑相应的协作机制，本发明能够很好的处理连续动作空间中多智能体的协作问题。

附图说明

图1为本发明结构示意图；

图2为本发明方法流程图；

图3为连续版CG示意图；

图4为在连续版CG游戏中，SMC、rFMQ、CALA和SCC-rFMQ的实验对比参考图；

图5为在连续版PSCG游戏中，SMC、rFMQ、CALA和SCC-rFMQ的实验对比参考图；

图6为多智能体船过河游戏示意图；

图7为SCC-rFMQ和SMC在船过河游戏中的实验对比参考图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

针对连续动作空间上的多智能体协作问题，本发明提出一个智能体独立学***稳性和随机性问题[9]。在策略策略评估和更新层，将rFMQ策略[9]引入PHC(Policy Hill-Climbing)算法[24]，以便它可以处理多状态环境中的多智能体协作问题。最后，通过与其他强化学习方法的比较，分析了SCC-rFMQ学习算法的性能。

接下来，对本发明运用到的技术和必要的基本概念进行说明：

1、连续动作合作式马尔科夫博弈

马尔科夫博弈(Markov game)是多智能体强化学习研究的基础，是重复博弈(Repeated game)和马尔科夫决策过程(Markov Decision Process)的结合。通常马尔科夫博弈可由下面的五元组<S,N,A_i,T,R_i>表示：

S：状态集合；

N：智能体集合；

A_i：智能体$i$的动作空间；

T:S×A×S→[0,1]：状态转移函数；

R_i:S×A→R：智能体i的回报函数.

这里A＝A₁×…×A_N，并且对任意i∈N有A_i∈[0,1]。

在马尔科夫博弈中，所有智能体都可观察到全部状态s。状态转移函数和回报函数取决于各智能体的联合动作。称一个马尔科夫博弈为协作马尔科夫博弈(或联盟游戏)，当指马尔科夫博弈中各智能体可按其所处环境分为多相互竞争的多个组，每组智能体共同完成同一个目标。特殊的，如果一个马尔科夫博弈中，所有的智能体的回报都永远相等，称这个游戏为完全协作马尔科夫博弈。智能体的动作空间A_i可以是连续的也可以是离散的。目前大部分强化学习工作都集中在离散的动作空间中。然而现实环境中，比如一些高精度控制类问题，其动作的轻微改变可能会导致较大的损失。要解决这类问题，对连续动作空间做简单的离散化处理往往不尽人意，人们通常需要直接在整个连续的空间中寻找最优策略。

在协作式马尔科夫博弈中，智能体学习的一个常见的目标是通过独立学习去寻找帕累托最优解(Pareto-optimal solution)。帕累托最优解是指在该策略下，没有任何一个智能体可以在其它智能体回报不减少的情况下获得更高的期望回报。形式化的，策略(π_i,π_-i)是一个帕累托最优，当且仅当不存在任何一个策略(π′_i,π′_-i)使得对任何一个智能体i都有R_i(π′_i,π′_-i)≥R_i(π_i,π_-i)，并且其中存在一个严格大于的智能体。同纳什均衡策略不同，帕累托最优是从静态全局的角度来看待问题，是问题的最优解；而纳什均衡是从动态局部的角度来看待问题，是问题求解过程中的临时解。两个概念并无交集，例如在囚徒困境博弈中，背叛策略(D,D)为纳什均衡，而协作策略(C,C)为帕累托最优。但是需注意到帕累托最优并不等同于群体最优解，群体最优解和各智能体回报和最大的解。

在一个协作式马尔科夫博弈中，对强化学***稳性问题(non-stationarity problem)和随机性问题(Stochasticity problem)[9]。在单智能体学***稳性是算法可以学***稳问题和随机性问题可能会导致算法学习不到好的协作策略。

本发明提出一个协作算法来学习连续动作空间下的协作式马尔科夫博弈的帕累托最优策略的纳什均衡。

2、策略爬山算法(Policy Hill Climbing，PHC)

策略爬山算法PHC(Policy Hill Climbing)是梯度上升策略在Q学习中的简单扩展，用以混合策略上学习。对比Q学习，PHC智能体维持状态值估计Q(s,a)的同时还有一个混合策略π(s,a)，表示智能体状态s下选择动作a的概率。然后与环境以及其它智能体交互，获得回报r和下一个状态s′。然后按照下式更新估计Q(s,a)和策略π(s,a)，

Q(s,a)←(1-α)Q(s,a)+α(r+γmax_a′Q(s′,a′))

其中α和δ为学习率，γ为折扣因子，以及|A_s|为智能体在状态s下可选的动作的数目。估值Q(s,a)的更新与Q学习算法一致。从上式可以看出，混合策略的更新方式是逐步增加选择的Q最大的动作的概率，减少选择其他动作的概率。注意到，当学习率为最大值1时，PHC将等价于Q学习算法。在多智能体学习环境下，PHC智能体能够出学习对其它智能体的最佳响应的混合策略。

3、连续动作空间上的SMC学习算法

目前已有部分工作研究真实环境中的连续动作空间强化学习问题。SMC学习[20]是其中一个具有代表性的算法。该算法是一种Actor-Critic方法，通过序列蒙特卡罗(SMC)采样方法来近似连续空间上选择动作的概率分布。下面我们简要介绍该算法的学习流程。

SMC学习算法是一种基于采样的Actor-Critic方法。Actor-Critic架构的主要思路是策略的估计和策略的更新在独立的进程中分别学习，处理策略估计部分称为Critic，策略更新的部分称为Actor。在SMC学习算法中，Actor为蒙特卡洛抽样方法的随机策略。具体地，对任意状态s，对应一个从连续动作空间中随机采样得出的离散的动作集A(s)。集合中的每一个动作样本a_i∈A(s)对应一个重要性权重ω_i。在动作采样过程中，Actor按照权重ω_i随机的从动作集A(s)中选择一个动作。随后Critic按照回报估计响应状态的动作值函数Q。最后Actor再按照Critic提供的值估计函数按照重要性采样原则(ImportanceSampling principle)更新策略的概率分布。重要性采样原则是指具有高期望回报的动作的点被采样到的概率相对也应该更高一些。

在状态s中所有动作a∈A(s)对应的权重是该状态下连续动作空间的策略密度函数的一个估计。当动作集A(s)中一些动作对应的权重很小或者很大时，意味着集合A(s)包含一些具有特别小回报的动作，因此Actor需要重新采样一些新的动作来换掉这些不好的动作。这里重采样的规则也是按照重要性采样原则，即具有高期望回报的动作的附近的点被采样到的概率相对也应该更高。因为样本的权重与该行为的预期回报成正比，具有高期望回报点附近的概率密度函数也应该较高，要提高期望回报这些动作就需要被更频繁地采样和执行。

SMC学习算法是为单智能体环境的马尔科夫下学习最优设计的连续动作空间的学习算法，如前文所述，其不能被直接的应用在多智能体环境中。后面的工作中我们基于SMC的重采样机制，设计了一个针对连续动作空间中多智能体合作问题的强化学习算法。

4、协作博弈中的rFMQ算法

在多智能体环境中的协作性问题，目前已有很多显著的研究工作。其中一些工作通过改进Q学习算法来应用到协作式多智能体***中，如分布式Q学习[3]和频率最大Q值学习(FMQ)[25]。这里介绍FMQ的一个改进算法，递归FMQ算法(recursive FMQ，rFMQ[9])，用来帮助解决多智能体的协作问题。

rFMQ是一个为矩阵博弈设计的单状态的多智能体强化学习算法。在rFMQ中，对每一个动作a，算法在计算更新值函数Q(a)的同时，记录该动作下智能体曾经收到的最大回报Q_max(a)(注意到单状态环境下Q值就是对即时回报r的估计)。频率F(a)为算法对在选择动作a时收到最大回报在所有回报中所占的比例的估计。

具体的，F(a)按照学习率α_f在学习过程中递归的更新，

这里r为当前状态下选择动作$a$时收到的回报，需注意其在多智能体环境中由各智能体的联合动作决定。rFMQ的关键思想是按照频率F(a)去权衡该动作下的期望回报Q(a)和最高回报Q_max(a)，即E(a)＝(1-F(a))Q(a)+F(a)Q_max(a)，然后按照加权后的回报E(a)选择下一步的动作。原rFMQ中的动作选择基于∈贪婪(∈-greedy)原则：依概率∈按照均匀分布从动作空间中选择动作，或者依概率1-∈从动作空间中选择具有最高的E值的动作。

简单的说，通过采用Q(a)和Q_max(a)的加权值E(a)选择动作，rFMQ增加了选择出现过最大回报的动作的概率。而在协作博弈中，其他智能体在该回报中对应的动作往往也是一个比较好的选择。因此这样做可以更好的应对多智能体协同过程中遇到的帕累托选择问题和非平稳问题。随机环境中存在这种可能性，某动作虽然曾经产生过很大的回报，但是其期望回报并不是最好的回报。rFMQ中递归减小式的权重设计，可以有效的防止算法收敛到这中动作中。该算法已经在Matignon等人[9]的工作中实验验证过可以解决在部分随机矩阵博弈的协作学***稳问题和随机性问题。

该算法最大的限制是其只能应用在纯策略的矩阵博弈中。为此，本发明将rFMQ中的递归最大值优先思想引入到PHC算法中，用来解决多状态下混合策略的协同学习问题。

5、分片双线性差值算法

分片双线性插值算法又称双线型内插值算法，是由两个变量的插值函数的线性插值扩展，其核心思想是在两个方向分别进行一次线性插值。分片双线性插值作为数值分析中的一种插值算法，广泛应用在信号处理，数字图像和视频处理等方面。

如图1所示，对于目的点C＝(x,y)(图中中间的点所示)，根据与之相邻的最近的四个已知点A₁₁＝(x₁,y₁)，A₁₂＝(x₁,y₂)，A₂₁＝(x₂,y₁)和A₂₂＝(x₂,y₂)的值分别为f(A₁₁)，f(A₁₂)，f(A₂₁)和f(A₂₂)，这四个点构成一个平行于坐标轴的矩形，使用双线性插值算法计算值f(C)。首先做两次线性插值，分别求出点B₁＝(x,y₁)和点B₂＝(x,y₂)(图中C点垂直两侧的点)的插值，然后再用这两个点再做一次线性插值，就可以求出点C＝(x,y)的插值。具体的，

上述步骤可简化为以下矩阵乘的形式，

使用分片双线性插值可以生成连续的函数，常被用来做图像的缩放。本发明使分片双线性插值算法连续化两个经典的离散矩阵游戏，然后用连续化后的游戏来检验本发明提出的SCC-rFMQ方法的性能。

以下对本发明进行详细说明：

受SMC学***稳性问题和随机性问题，本发明在这两层中各引入了相应的协作机制：可变探索率机制和递归最大值优先机制。在动作集修正层，提出一种新的重采样策略，协作式重采样策略(Coordination Resample)，其使用可变的探索率来解决多智能体环境下连续动作空间中的动作选择问题。而在策略评估和更新层，本发明将rFMQ算法中的递归最大值优先思想引入到爬山算法(PHC[24])中，用来解决马尔科夫博弈中的策略评估问题。

作为本发明的一个实施例，本例SCC-rFMQ的具体算法框架见算法1，

算法1 n样本SCC-rFMQ智能体i的学习动态

如图2所示，在本发明SCC-rFMQ中，首先初始化采样的动作集合(步骤(1))。本例将各状态最开始的采样动作集A_i(s)可设置为连续动作空间A_i(s)中等距离采样的n个动作。步骤(2)：初始化其它参数。本例按照第(2)步设定的值进行初始化。其中Q_i(s,a)、

和E_i(s,a)分别为智能体i在状态s下关于动作a的期望回报、历史最大回报和加权平均回报，V_i(s)为i在s下的平均期望回报，π_i(s,a)为在状态s下选择a的概率，F_i(s,a)为出现最大值的频率的估计，l_i(s)为探索率。第(3)步为本发明方法的主要学习过程。本发明在每一轮非终止态上的学习包含两个关键步骤：动作集修正步骤(第3.2.1步)和策略评估和更新步骤(第3.2.2步)。在动作集修正步骤中，算法首先判断是否需要更新动作集，若需要则更新动作，否则直接跳过该层。本例使用协作式采样策略进行动作集的修正(具体见算法2))。本例的判定条件可依环境而定。在本例的实验部分，本发明使用一个较为简单的判定条件，即每固定次数次学习(c＝200)就更新一次动作集，因为在PHC类具有固定的策略更新率的算法中，c＝200次已经足够使算法学习到相对准确的估计值了。之后是策略评估和更新层。在该层中，对任意的动作a∈A_i(s)按照改进后的PHC算法，也就是多状态rFMQ(具体见算法3))评估Q_i(s,a)并更新策略π_i(s,a)。本发明SCC-rFMQ的其它步骤同传统的多状态多智能体马尔科夫博弈的强化学习算法相同，因此不做详细的介绍。本例在下面详细介绍算法2和3。

1、协作式重采样策略

本例SCC-rFMQ的第一个关键步骤：协作式重采样策略(Coordination Resamplestrategy)。在动作集修正层，需要考虑两个问题：一个是如何去寻找一个比当前策的动作集更好动作集；另一个是如何有效的协作来保证算法最终能够学***均期望回报大于历史上其他动作集的平均期望回报时，选择更小的探索范围，反之则增加探索范围。这样设计的初衷同SMC学***稳性和可能导致当前最大估值的动作在将来变成不好的动作。此外，WoLM策略还可以增加算法寻找到全局最优的机率。算法2是该协作式重采样策略的具体过程。

算法2协作式重采样策略

首先使用WoLM原则更新探索率l_i(s)(第1步)：如果当前动作集的平均期望回报

大于或等于之前的各动作集的累计平均期望回报V_i(s)，则减少探索率l_i(s)为l_i(s)δ_d(δ_d＜1)，否则增加l_i(s)为l_i(s)δ_l(δ_l＞1)。这里δ_l和δ_d为两个正的实数。在算法1中l_i(s)的初始值设为1/2，目的是在算法前期有个较大的探索范围。随后第2步更新累计平均期望回报V_i(s)，其中α_s为学***稳性和随机性问题，同时可以避免过早的收敛到局部最优(从个体角度是局部最优，从多智能体角度即帕累托选择问题)。

2、多状态rFMQ策略

本发明SCC-rFMQ的第二个关键部分：多状态rFMQ策略。结合rFMQ的递归最大值优先思想，本发明扩展PHC算法[24]到多智能体协作博弈中。PHC算法是一个在多状态多智能体环境中学习混合策略的强化学习算法，虽然在竞争的环境中有可能会不收敛，但是在协作式博弈中算法是能收敛的。同时递归最大值优先思想的引入也可以保证算法在智能体独立学习中学习到更好的策略。此外，由于SCC-rFMQ的重采样机制，原则上也不需要这一步骤中算法能严格的保证收敛，只需要具有最高回报的动作能被最高的概率的选择就可以。算法3是多状态rFMQ策略的具体描述。

算法3智能体i的多状态rFMQ策略

本方法中，首先判断当前的动作集是不是更新过，若更新过则初始化当前状态下所有动作对应的F_i(s,a)、

和E_i(s,a)，否则直接跳过(第1步)。然后按照一定的概率使用混合策略π_i(s,a)选择动作a，并执行(第2步)。接着从环境中观察到回报r和下一步状态s′，并按照Q学习方法更新当前s和a对应的状态动作值Q_i(s,a)(第3步)。这两步与传统的Q学习方法一样，这里不做详细描述。第4步和第5步按照递归最大值优先思想估计E_i并更新策略π_i(s,a)，这里参数α_F,α_π∈(0,1）为学习率。不同于rFMQ，这里使用长期最大回报

来表述状态s下动作a曾经得到的最大的长期回报，这里/>

记录动作a下r+γmax_a′Q_i(s′,a′)的最大值。这样做是对Q学习在多状态环境中的一个自然扩展。其它变量如，F_i(s,a)、/>

和E_i(s,a)的更新同原始的rFMQ一样。最后依据E_i(s,a)使用PHC策略更新策略π_i(s,a)(第5步)，即增加选择具有最大E_i(s,a)值的动作的概率，同时选择减小其它动作的概率。通过将单状态的rFMQ递归最大值优先思想引入到PHC学习中，算法可以有效的解决复杂环境中多智能体的协作问题。

最后，很对本发明的效果进行了实验与仿真，从而说明其性能和技术效果。

1.实验与仿真

本例通过与其它相关算法比较，检验本发明SCC-rFMQ算法的性能。注意到大多数相关工作都是基于两个智能体环境的[7-9]。本发明针对单状态和多状态的环境，分别构建了两个具有代表性的多智能体游戏：对单状态环境，本发明基于两个经典的矩阵博弈游戏，针对性的够造了两个满足非平稳性和随机性的连续动作空间上的游戏；对于多状态的环境，本发明使用一个改进版的船过河游戏[20,26]来检验算法的性能。

1.1单状态协作博弈——爬山游戏

首先考虑单状态的游戏环境。本发明将表1和2中的两个经典的矩阵博弈游戏使用分片双线性差值技术转化的连续动作空间上的游戏。这两个矩阵游戏因其简单但具备各种导致协作失败的性质，如非平稳性和随机性，在离散动作的协作学***稳性问题的能力，PSCG还可用于测试解决随机性问题的能力。

表1爬山游戏(CG,Climbing Game)

表2半随机爬山游戏(PSCG,Partially Stochastic Climbing Game)

1.1.1游戏描述：

爬山游戏(CG，The Climbing Games，表1是一个完全协作式的矩阵博弈游戏。游戏中，每个智能体有A，B和C三个动作选项，矩阵中的值为联合动作对应的回报。Kapetanakis等人[25]提出的半随机爬山游戏(PSCG，Partially Stochastic CG，表2)是CG游戏的一个变种。不同于CG游戏，PSCG的联合动作<B,B>对应的回报为等概率的取14或0。从统计上来说，PSCG和CG游戏的平均回报是相等的，因为智能体在两个游戏中持续选择<B,B>后的平均回报都是7。这两游戏虽然简单，但是具有一些很有意思的特性。首先，CG和PSCG都有两个纳什均衡点，即<A,A>和<B,B>，其中<A,A>是帕累托最优。此外如果每个智能体都随机选择动作，那么最终回报最高的联合策略不是<A,A>或<B,B>，而是<C,C>。这些性质凸显了非平稳性的影响，将导致一些单智能体的学习算法无法学习到帕累托最优。此外对PSCG，由于14远远大于其他的回报，其随机性还会增加算法陷入到<B,B>的机率。

为了验证本发明SCC-rFMQ在连续动作空间上解决协作问题的能力，这里需要将这两个游戏连续化。首先将CG和PSCG中的动作用一个连续变量a_i∈[0,1]表示，其中a_i＝0，a_i＝0.5和a_i＝1分别代表动作A，B和C。同时，定义智能体的回报r为[0,1]到R上的映射r:[0,1]×[0,1]→R。该映射满足a_i∈{0,0.5,1}时，r(a₁,a₂)等于原CG和PSCG对应的回报。对于

时的情况，本发明使用分片双线性差值算法[30]进行连续化。在数值分析领域，分片双线性插值是线性插值在二元函数定义域空间上的一个扩展。图3为使用分片双线性插值算法连续化后的CG游戏的回报函数在动作空间上取值的颜色图。图3中，坐标a₁和a₂分别代表智能体1和2的连续动作，而联合动作对应的回报值的大小按颜色的深浅表示。从图中可观察出，同原CG游戏一样，连续化版的CG游戏有两个平衡点：全局最优r(0,0)＝11和局部最优r(0.5,0.5)＝7，其中r(0,0)＝11还是帕累托最优。注意到梯度指向帕累托最优点(0,0)的所有点所占的面积，即点(0,0)，(0.5,0)和(0,0.5)围成的三角形所占的面积，不到全部动作空间的1/8，这将导致传统的基于梯度的算法更容易学***均回报的话，局部最优点(0.5,0.5)附近的平均回报也要高于全局最优点，这也会影响基于随机采样类学习算法的学习性能，如果不考虑对手策略，算法将很容易收敛到局部最优。

对PSCG游戏的连续化，首先用分片双线性插值算法分别对r(0.5,0.5)＝14和0构建两个确定性的连续动作游戏，然后对任意一个联合动作按照等概率从这两个确定性游戏中随机读取回报。这里不再详细描述。

1.1.2实验仿真及结果

本例在连续化的CG和PSCG游戏上对SCC-rFMQ对比几个经典的算法，即SMC[20]、rFMQ[9]和CALA[16,22]，其中SMC和CALA为两个经典的连续动作空间上的单智能体学习算法，而rFMQ为一个常用的离散动作空间上的多智能体协作算法。

各学***起见，对SMC和rFMQ中与SCC-rFMQ的相同参数(如α_Q和γ)采用一样的设置，而对其他参数本发明通过多次实验选取最好的参数配置。对所有算法，参数α_Q在连续版FCG和PSCG中取α_Q＝0.5，在船过河游戏中α_Q＝0.9。算法SMC的参数σ和τ的设置同原论文(Lazaric等[20])。算法CALA的参数配置同原论文(de Jong等[22])。

表3参数设置

图4给出各方法在连续化版的CG游戏中50次平均实验结果，其中，横坐标Interaction Round为算法交互次数，纵坐标Reward为回报。这里使用智能体在每轮收到的回报(纵坐标)作为性能的评估指标。对于rFMQ算法，本例分别在连续空间上均匀取5个和10个动作作实验。这些动作对应的回报同连续版的CG和PSCG一样。为了公平起见，SMC和SCC-rFMQ也用5个和10个样本初始化，且各组实验的初始动作集避开了全局最优的点。从图4中可以看出，在所有情况下，SCC-rFMQ算法都要显着优于其他三种算法，其次是SMC学习，而CALA性能最差。此外从图4中还可观察得出，算法SCC-rFMQ，SMC和rFMQ在更多样本或动作时结果要更好。

图5给出各方法在连续版PSCG游戏上的实验结果，其中，横坐标InteractionRound为算法交互次数，纵坐标Aerage Reward为平均回报。实验设置同连续版CG游戏一样。考虑到游戏的随机性，这里使用累积平均回报(纵坐标)作为各算法实验结果的评估指标。同样各算法取50次实验的平均结果。从图5中可得，各实验的结果与连续的CG游戏相似，除了需要更多的收敛时间。此外，对SMC、rFMQ和CALA，其在连续的PSCG游戏上的实验结果要稍微好于连续CG。他们的回报结果更接近7，而且对SMC和rFMQ，不同数目的采样样本或动作对实验结果的影响也相对小一些。综上，SCC-rFMQ算法在处理单状态连续动作空间的多智能体合作问题上要优于其它的几个算法。

1.2多状态协作博弈——船过河游戏

为了进一步检验本发明的性能，本发明考虑一个经典的多状态连续动作空间游戏，即船过河游戏。这个问题最初由Jouffe[26]和Lazaric[20]中提出，本发明以一种更一般的方式重新定义它。

1.2.1游戏描述

船过河游戏的目标是控制船的速度和方向让其从河一边的码头运动到河对岸的码头(如图6所示)。游戏中的船受前进和转向两个发动机控制，分别控制船的前进加速度和转向加速度。这里两个发动机由两个独立的智能体分别控制，因此，两个智能体需要学习如何协作而得到共同的目的。船的状态可由四元组<x,y,θ,v>表示，其中x∈[0,50]和y∈[0,100]表示船的位置坐标，θ∈[-π/3,π/3]为船的角度(船前进的方向)，而v∈[2,5]为船的速度。为增加游戏难度，定义河水的流速为E(x)＝f_c[x/50-(x/50)²]，其中f_c为一个服从正态分布N(4,0.3²)的随机变量。这样的假设更符合实际环境，一方面水的流速在河中央高两边低，另一方面具有一定的随机性。同时，也为本发明学习到最优提供了一定的挑战。两个智能体(控制器)的动作定义为两个连续变量a∈[-1,2]和ω∈[-1,1]，其中a为船的前进加速度，ω为船的角速度。船两头的码头中心坐标分别为(0,50)和(50,50)。船在每一时刻的状态变量按照下式更新，

其中Π_Δ为投影映射，将定义域上的值映射到区间Δ中，用来防止变量超出规定范围。

回报函数分为两个域定义。成功域Z_s对应河对岸的码头区域，而失败域Z_f为所有其它位置。回报函数可形式化地定义为，

其中D(x,y)＝20-2|y-50|为一个回报按输入从0到20逐渐递减的方程，其输入表示位置离码头中心的距离。这里，Z_s＝{(x,y)|x＝0,y∈(40,60)}。

1.2.2实验仿真及结果

实验中，本发明使用两个智能体分别控制变量a和ω，所以该游戏可以描述为两个智能体的多状态连续动作空间上的一个协作游戏。其目的是训练这两个智能体相互协作以获得尽可能高的回报。位置状态变量x和y按照1离散化，其它状态变量θ和v按其定义区间等分为10个。总计该实验一共有500000个状态。初始状态定义为<0,50,0,0>。该实验配置能保证船按照方程(1)在每一次更新状态时不会出现状态不变的情况，从而导致实验陷入状态的无限循环中。接下来，本发明在不同采样数目下对比SCC-rFMQ和SMC[20]。事实上，本发明也做了其他经典的多智能体算法的相关实验，如WoLF-PHC[24]，分布式Q学习[3]和Hysteretic learners[4]，并发现这些传统的离散动作空间上的算法在该游戏中具有很差的收敛性，因为游戏环境的大规模状态。其他算法，如rFMQ和CALA，仅适用于单状态游戏中。因此这里不对这些算法做详细对比，仅使用SMC算法来代表那些设计在单智能体连续动作空间的游戏环境中的相关算法。各算法的相关参数设计参见表3。

图6给出了算法SCC-rFMQ和SMC在不同数目采样样本下的实验效果对比，其中，横坐标Episodes为算法学***均结果。注意到20是理论的最高回报值。观察图6可得，在所有采样数目中，SCC-rFMQ在收敛速度和学习的最终回报两个方面都要由于SMC算法。在4个和6个采样环境中，SCC-rFMQ最终都成功的学习到了最高的回报20，随后是6个采样动作的SMC(学习到19附近)。效果最差的是4个采样动作的SMC，收敛到13附近。此外，随着采样数目的增加，SCC-rFMQ的收敛速度越慢，而SMC不具有这样的现象。综上，在连续动作空间中的协作游戏中，SCC-rFMQ要优于SMC这种没有协作机制的学习算法。

2实验结果分析

SCC-rFMQ算法的收敛时间取决于两个因素：采样数目和两次采样期间的学习次数。尽管较高的采样数目能增加算法的探索能力，因此也提高了算法学习到更好的回报的概率。同时，也会减少算法对环境变化的应对能力，因为更多的采样次数意味着对每个动作观察次数的降低，因此增加了算法收敛的时间。所以在图4、5和7中，具有更多采样动作的SCC-rFMQ算法的学习速度要慢于较少采样的情况。

图4和5中其它对比实验的不好表现主要归功于游戏在局部最优点<0.5,0.5>附近的低梯度以及其附近的高平均回报。SMC和CALA由于并非为多智能体协作问题设计，无法应对环境的变化，因此他们很容易陷入局部最优陷阱。已分析过，在连续的CG和PSCG游戏中，梯度指向全局最优的点占所有面积的1/8，而回报大于7的点占所有面积的不到1/1000。对rFMQ算法，很难让采样动作包含全局最优，所以其效果较差。此外，对比图3和4，发现除了SCC-rFMQ，所有算法在连续CG游戏中的回报都要稍微优于连续PSCG，这是因为连续PSCG的随机性导致游戏在局部最优<0.5,0.5>周围的梯度不再那么低，使得各算法能有更高的概率学习到局部最优，从而获得比连续CG游戏更高的回报。

同图4和5中的实验一样，SCC-rFMQ在船过河游戏中的实验表现要优于SMC。SCC-rFMQ在4和6两个采样数目情况下都较快的学习到了全局最优。SMC在图7中的较差表现主要是因为游戏中水流的随机性(受参数f_c影响)，导致算法无法应对试验环境的变化。

3、总结

本章提出SCC-rFMQ方法用来解决连续动作空间中马尔科夫游戏的协作问题。SCC-rFMQ算法包含两个关键部分：协作式重采样策略和多状态rFMQ策略。协作式从采样策略通过重采样可用的动作集解决连续动作空间问题，而多状态rFMQ策略评估采样到的动作集并给出相应的协作策略。通过对两个部分分别考虑相应的协作机制，SCC-rFMA算法可以很好的处理连续动作空间中多智能体的协作问题。充足的仿真实验也表明，SCC-rFMQ要优于其他的强化学习方法。

以上所述之具体实施方式为本发明的较佳实施方式，并非以此限定本发明的具体实施范围，本发明的范围包括并不限于本具体实施方式，凡依照本发明所作的等效变化均在本发明的保护范围内。

本发明中涉及到的标号对应的参考文献如下：

[1]Riedmiller M,Gabel T,Hafner R,et al.Reinforcement Learning forRobot Soccer[J].Auton.Robots,2009,27(1):55–73.

[2]Meng J,Williams D,Shen C.Channels matter:Multimodal connectedness,types of co-players and social capital for Multiplayer Online Battle Arenagamers[J].Computers in Human Behavior,2015,52:190–199.

[3]Lauer M,Riedmiller M A.An Algorithm for Distributed ReinforcementLearning in Cooperative Multi-Agent Systems[C].In Proceedings of theSeventeenth International Conference on Machine Learning,San Francisco,CA,USA,2000:535–542.

[4]Matignon L,Laurent G J,Fort-Piat N L.Hysteretic q-learning:analgorithm for decentralized reinforcement learning in cooperative multi-agentteams[C].In IEEE/RSJ International Conference on Intelligent Robots andSystems IROS,2007:64–69.

[5]Panait L,Sullivan K,Luke S.Lenient learners in cooperativemultiagent systems[C].In International Joint Conference on Autonomous Agentsand Multiagent Systems,2006:801–803.

[6]Bloembergen D,Kaisers M,Tuyls K.Empirical and Theoretical Supportfor Lenient Learning[C].In The 10th International Conference on AutonomousAgents and Multiagent Systems Volume 3,2011:1105–1106.

[7]Wei E,Luke S.Lenient Learning in Independent-learner StochasticCooperative Games[J].J.Mach.Learn.Res.,2016,17(1):2914–2955.

[8]Palmer G,Tuyls K,Bloembergen D,et al.Lenient Multi-Agent DeepReinforcement Learning[J].CoRR,2017,abs/1707.04402.

[9]Matignon L,Laurent G j,Le fort piat N.Review:IndependentReinforcement Learners in Cooperative Markov Games:A Survey RegardingCoordination Problems[J].Knowl.Eng.Rev.,2012,27(1):1–31.

[10]PazisJ,LagoudakisMG.Binary Action Search for Learning Continuous-action Control Policies[C].In Proceedings of the 26th Annual InternationalConference on Machine Learning,New York,NY,USA,2009:793–800.

[11]Pazis J,Lagoudakis M G.Reinforcement learning in multidimensionalcontinuous action spaces[C].In IEEE Symposium on Adaptive DynamicProgramming&Reinforcement Learning,2011:97–104.

[12]Sutton R S,Maei H R,Precup D,et al.Fast Gradient-descent Methodsfor Temporal-difference Learning with Linear Function Approximation[C].InProceedings of the 26th Annual International Conference on Machine Learning,2009:993–1000.

[13]Pazis J,Parr R.Generalized Value Functions for Large Action Sets[C].In International Conference on Machine Learning,ICML 2011,Bellevue,Washington,USA,2011:1185–1192.

[14]Lillicrap T P,Hunt J J,Pritzel A,et al.Continuous control withdeep reinforcement learning[J].Computer Science,2015,8(6):A187.

[15]KONDA V R.Actor-critic algorithms[J].SIAM Journal on Control andOptimization,2003,42(4).

[16]Thathachar M A L,Sastry P S.Networks of Learning Automata:Techniques for Online Stochastic Optimization[J].Kluwer Academic Publishers,2004.

[17]Peters J,Schaal S.2008 Special Issue:Reinforcement Learning ofMotor Skills with Policy Gradients[J].Neural Netw.,2008,21(4).

[18]van Hasselt H.Reinforcement Learning in Continuous State andAction Spaces[M].In Reinforcement Learning:State-of-the-Art.Berlin,Heidelberg:Springer Berlin Heidelberg,2012:207–251.

[19]Sallans B,Hinton G E.Reinforcement Learning with Factored Statesand Actions[J].J.Mach.Learn.Res.,2004,5:1063–1088.

[20]Lazaric A,Restelli M,Bonarini A.Reinforcement Learning inContinuous Action Spaces through Sequential Monte Carlo Methods[C].InConference on Neural Information Processing Systems,Vancouver,BritishColumbia,Canada,2007:833–840

[21]Lowe R,Wu Y,Tamar A,et al.Multi-Agent Actor-Critic for MixedCooperative-Competitive Environments[J].CoRR,2017,abs/1706.02275.

[22]de Jong S,Tuyls K,Verbeeck K.Artificial Agents Learning HumanFairness[C].In Proceedings of the 7th International Joint Conference onAutonomous Agents and Multiagent Systems.Volume 2,2008:863–870.

[23]Galstyan A.Continuous Strategy Replicator Dynamics for Multi-agent Q-learning[J].Autonomous Agents and Multi-Agent Systems,2013,26(1):37–53.

[24]BowlingM,Veloso.Multiagent learning using a variable learningrate[J].Artificial Intelligence,2002,136(2):215–250.

[25]Kapetanakis S,Kudenko D.Reinforcement learning of coordination incooperative multi-agent systems[J].AAAI/IAAI,2002,2002:326–331.

[26]Jouffe L.Fuzzy Inference System Learning by Reinforcement Methods[J].Trans.Sys.Man Cyber Part C,1998,28(3):338–355.

[27]Claus C,Boutilier C.The Dynamics of Reinforcement Learning inCooperative Multiagent Systems[C].In Proceedings of the Fifteenth National/Tenth Conference on Artificial Intelligence/Innovative Applications ofArtificial Intelligence,Menlo Park,CA,USA,1998:746–752.

[28]Lauer M,Riedmiller M.Reinforcement learning for stochasticcooperative multi-agent-systems[C].In Proceedings of the Third InternationalJoint Conference on Autonomous Agents and Multiagent Systems,2004.AAMAS2004.,2004:1516–1517.[29]Carpenter M,Kudenko D.Baselines for Joint-ActionReinforcement Learning of Coordination in Cooperative Multi-agent Systems[M].In Adaptive Agents and Multi-Agent Systems II:Adaptation and Multi-AgentLearning.Berlin Heidelberg:Springer,2005:55–72.

[30]Saha Ray S.Numerical analysis with algorithms and programming[M].Boca Raton:CRC Press,Taylor&Francis Group,2016.