CN113268854A

CN113268854A - 一种双评价器单执行器的强化学习方法及***

Info

Publication number: CN113268854A
Application number: CN202110415953.4A
Authority: CN
Inventors: 任维雅; 周仕扬; 任小广; 王彦臻; 易晓东
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2021-08-17

Abstract

本发明公开了一种双评价器单执行器的强化学习方法及***，包括：S1初始化双评价器单执行器中的参数，并设置策略网络的损失函数中各评价器的比例系数；S2根据初始化噪声函数在初始化环境中得到一个状态；S3根据当前状态、当前策略和噪声函数计算动作，执行所述动作观察奖励和下一个状态，将当前状态、动作、奖励和下一状态作为经验存到缓冲区；S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数；根据设定的迭代条件重复上述步骤训练双评价器单执行器的强化学习；其中，所述评价器包括基于奖励的评价器和基于人工势场的评价器。本发明解决了无模型强化学习中，样本利用率不高、训练收敛速度慢等问题。

Description

一种双评价器单执行器的强化学习方法及***

技术领域

本发明涉及智能体路径规划领域，具体涉及一种双评价器单执行器的强化学习方法及***。

背景技术

目前大多数无模型强化学习算法都采用了在策略评估和策略改进之间迭代的广义策略迭代，策略评估方法是对行为价值函数进行估计，而策略改进方法则是根据行为价值函数对策略进行更新。基于广义策略迭代和策略梯度定理，Actor-Critic(AC，强化学习)已经成为一种广泛使用的架构。

确定性策略梯度算法(Deterministic policy gradient，DPG)在AC框架的基础上进一步考虑了确定性策略梯度算法用于连续动作，与随机策略相比，DPG在策略评估时降低了方差。深度确定策略梯度(Deep Deterministic Policy Gradient，DDPG)进一步将Deepneural networks与DPG结合，提高建模能力。然而，无模型AC算法和DDPG算法都是通过直接与环境交互产生样本，存在采样效率低、收敛速度慢等的问题。

基于模型的规划方法，通过使用学习得到的模型进行模拟推演来加速学习或者获得更好的动作状态的价值估计。虽然计算效率更高，收敛速度也更快，但是规划的准确性与环境的动力学模型的精度是息息相关的。现实情况中，环境受空气温度、摩擦阻力、通信时延、材料特性等各种随机因素影响大。规划所需要的环境的动力学模型现实中往往无法得到。此外，规划方法对环境模型的依赖性太强，对新环境的泛化能力较弱，环境一旦发生变化，就需要重新规划。然而环境往往随时间的变化而变化，想要获得完全模拟现实环境的精确模型是不现实的。

因此，如何将强化学习与规划方法相结合以解决彼此的问题亟需解决。

发明内容

为了解决现有技术中所存在的上述不足，本发明提供了一种双评价器单执行器的强化学习方法，包括：

S1初始化双评价器单执行器中的参数，并设置策略网络的损失函数中各评价器的比例系数；

S2根据初始化噪声函数在初始化环境中得到一个状态；

S3根据当前状态、当前策略和噪声函数计算动作，执行所述动作观察奖励和下一个状态，将当前状态、动作、奖励和下一状态作为经验存到缓冲区；

S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数；

S5判断训练步数是否达到一幕的最大步数，若是，则更新幕数并执行S6，否则更新步数并执行S3；

S6判断所述幕数是否达到设定的最大幕数，若是，则训练结束，否则初始化步数执行S2；

其中，所述评价器包括基于奖励的评价器和基于人工势场的评价器。

优选的，所述S1初始化双评价器单执行器中的参数，并设置策略网络的损失函数中各评价器的比例系数，包括：

S101随机初始化基于奖励的评价器的值函数网络和执行器的策略网络；

S102初始化目标网络的权重；

S103初始化经验回放缓存区；

S104设置策略网络的损失函数中各评价器的比例系数。

优选的，所述策略网络的损失函数，如下式所示：

式中：J(μ_θ)为策略网络的损失函数；θ为执行器的策略网络参数；

为状态空间；ρ^μ(s,γ₁)为在折扣γ₁下的状态分布；s为当前状态；γ₁为奖励折扣系数；μ_θ(s)为策略函数；r(s,μ_θ(s))为在状态s时采取策略μ_θ能获得的奖励；β为双评价器的比例系数；ρ^μ(s,γ₂)为在折扣γ₂下的状态分布；γ₂为势场值的折扣系数；q_PF(s,μ_θ(s))为在状态s执行策略μ_θ时基于势场的状态-动作函数。

优选的，根据当前状态、当前策略和噪声函数按下式计算动作：

a_t＝μ(s|θ)+N_t

式中：a_t为t时刻的动作；μ(s|θ)为当前状态s在当前策略下的结果；s为当前状态；θ为执行器的策略网络参数；N_t为根据噪声函数得到t时刻的噪声。

优选的，所述S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数，包括：

S401根据从所述缓冲区中采集的N个样本，以及值函数网络更新公式更新基于奖励的评价器的值函数网络；

S402根据从所述缓冲区中采集的N个样本和预设的人工势场的状态-动作值函数，计算基于人工势场的评价器的状态-动作值函数的值；

S403根据从所述缓冲区中采集的N个样本和所述损失函数，以及策略网络参数更新公式更新执行器的策略网络；

S404根据策略网络参数θ和策略网络μ更新目标网络。

优选的，所述人工势场的状态-动作值函数，如下式所示：

式中：Q_PF(s,a)为人工势场的状态-动作值函数；s是当前状态；a为动作；U(s)为状态s下的势场值；γ₂为势场值的折扣系数；s′_a为状态s下执行动作a后的状态；U(s′_a)为状态s下执行动作a后的状态的势场值；E为求均值；k为进行计算的中间变量，表示当前步数；q_PF(s_k,a_k)为在状态s_k执行策略μ_θ时基于势场的状态-动作函数；

其中，所述q_PF(s_k,a_k)按下式计算：

式中：U(s)为；χ是执行动作a后的方向和f(s)的夹角。

优选的，所述策略网络参数更新公式，如下式所示：

式中：θ_t+1为t+1时刻策略网络的参数；θ_t为t时刻策略网络的参数；α_θ为策略网络的学习率；

为求θ的梯度；μ_θ为权重参数为θ的策略网络；s_t为t时刻的状态；a_t为t时刻执行的动作；β为双评价器的比例因子；

为求动作a的梯度；

为基于奖励的状态动作值函数在权重参数w下使用t时刻状态执行动作a_t的值；

为t时刻基于势场的状态动作值函数的梯度。

优选的，所述值函数网络更新公式，如下式所示：

式中：δ_t为t时刻的TD误差；R_t为t时刻的即时奖励；γ₁为奖励折扣因子；

为基于奖励的状态动作值函数在值函数和策略权重参数分别为w′和θ′下t+1时刻状态的值；s_t+1为t+1时刻的状态；μ_θ，(s_t+1)为策略在权重参数θ′下t+1时刻的状态应执行的动作；

为基于奖励的状态动作值函数在值函数权重参数为w下状态s_t时执行动作a_t时的值；s_t为t时刻的状态；a_t为t时刻的动作；w_t+1为t+1时刻的网络权重；w_t为t时刻的网络权重；α_w为值函数网络的学习率；

为对权重w求梯度；

为基于奖励的状态动作值函数在权重参数w下使用t时刻状态执行动作a_t的值。

优选的，所述目标网络按下式更新：

θ′←τθ+(1-τ)θ′

w′←τw+(1-τ)w′

式中：θ′为目标策略网络权重；τ为目标网络软更新时的温度系数；θ为策略网络权重；w′为目标值函数网络权重；w为值函数网络权重。

基于同一发明构思，本发明还提供了一种双评价器单执行器的强化学习***，其特征在于，用于实现上述技术方案中任意一项所述的双评价器单执行器的强化学习方法，包括：

初始化模块，用于初始化双评价器单执行器中的参数，并设置策略网络的损失函数中各评价器的比例系数；

初始状态模块，用于根据初始化噪声函数在初始化环境中得到一个状态；

生成样本模块，用于根据当前状态、当前策略和噪声函数计算动作，执行所述动作观察奖励和下一个状态，将当前状态、动作、奖励和下一状态作为经验存到缓冲区；

更新参数模块，用于根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数；

判断步数模块，用于判断训练步数是否达到一幕的最大步数，若是，则更新幕数并执行判断幕数模块，否则更新步数并执行所述生成样本模块；

所述判断幕数模块，用于判断所述幕数是否达到设定的最大幕数，若是，则训练结束，否则初始化步数执行所述初始状态模块；

与现有技术相比，本发明的有益效果为：

本发明提供的技术方案，S1初始化双评价器单执行器中的参数，并设置策略网络的损失函数中各评价器的比例系数；S2根据初始化噪声函数在初始化环境中得到一个状态；S3根据当前状态、当前策略和噪声函数计算动作，执行所述动作观察奖励和下一个状态，将当前状态、动作、奖励和下一状态作为经验存到缓冲区；S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数；S5判断训练步数是否达到一幕的最大步数，若是，则更新幕数并执行S6，否则更新步数并执行S3；S6判断所述幕数是否达到设定的最大幕数，若是，则训练结束，否则初始化步数执行S2；其中，所述评价器包括基于奖励的评价器和基于人工势场的评价器。本发明解决了无模型强化学习中，样本利用率不高、训练收敛速度慢等问题，将通过强化学习的方式不断与环境交互的结果与规划方法相结合，两者共同作用既可以加快算法的收敛速度，又可以弥补由于环境模型不准确带来的偏差从而得到问题的最优解。

附图说明

图1为本实施例中提供的一种双评价器单执行器的强化学习方法流程图；

图2为本实施例中双评价器单行动器的结构示意图；

图3为本实施例中执行动作a后的方向和f(s)的夹角示意图；

图4为本实施例中提供的当前状态执行不同动作后的下一状态示意图；

图5为本实施例中提供的3v1捕食者-被捕食者博弈的情形示意图；

图6为本实施例中提供的1v1捕食者-被捕食者博弈的情形示意图；

图7为本实施例中提供的1v1每500幕奖励的均值示意图；

图8为本实施例中提供的3v1每500幕奖励的均值示意图；

图9为本实施例中提供的1v1最近200步的捕获成功率示意图；

图10为本实施例中提供的3v1最近200步的捕获成功率示意图；

图11为本实施例中提供的当捕食者和被捕食者一起进行训练时3v1每500幕奖励的均值示意图；

图12为本实施例中提供的当捕食者和被捕食者一起进行训练时3v1最近200步的捕获成功率示意图。

具体实施方式

为了更好地理解本发明，下面结合说明书附图和实例对本发明的内容做进一步的说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

目前由于无模型AC算法和DDPG算法由于直接与环境交互产生样本，存在采样效率低、收敛速度慢的问题，而有模型的规划方法对环境模型的依赖性太强，对新环境的泛化能力较弱需改进，因此，通过强化学习的方式不断与环境交互的结果与规划方法相结合，两者共同作用既可以加快算法的收敛速度，又可以弥补由于环境模型不准确带来的偏差从而得到问题的最优解。

如图1所示，本实施例提供的一种双评价器单执行器的强化学习方法，包括：

S2根据初始化噪声函数在初始化环境中得到一个状态；

本实施例提供的技术方案解决了无模型强化学习中，样本利用率不高、训练收敛速度慢等问题，将通过强化学习的方式不断与环境交互的结果与规划方法相结合，两者共同作用既可以加快算法的收敛速度，又可以弥补由于环境模型不准确带来的偏差从而得到问题的最优解。

现有的Actor-Critic结构，是一个行动器一个评价器；或者有用于并行方案Asynchronous Advantage Actor-critic(A3C)是多个行动器一个评价器，而本实施例中提出了双评价器单行动器的方式。对于每个智能体来说，可以同时有多个评价器来共同指导统一个行动器，这样就可以通过设计不同的评价器来结合有模型和无模型的两种梯度更新。

在本实施例中，所述S1的具体实现步骤包括：

S102初始化目标网络的权重；

S103初始化经验回放缓存区；

S104设置策略网络的损失函数中各评价器的比例系数。

在本实施例中，所述S4的具体实现步骤包括：

S404根据策略网络参数θ和策略网络μ更新目标网络。

如图2所示，在本实施例中双评价器(Actor-Critic-2)单执行器的框架介绍多智能体的强化学习方法，首先提出以人工势场引导的深度确定性策略梯度PGDDPG方法，它以Actor-Critic-2框架为基础，将基于人工势场的评价器Critic2和传统的基于奖励的Critic1相结合。

在本实施例中，基于人工势场的评价器Critic2的构建过程包括：

首先基于传统的人工势场的计算方法，介绍基于人工势场的评价器Critic2的设计方式。

传统的人工势场采用：

U(s)＝U_att(S)+U_rep(S). (1)

其中引力：

其中ξ为引力因子，d(s,s_goal)为状态s时所在位置到目标状态s_goal的距离。

斥力：

其中，η为斥力因子，d₀为受斥力影响的最大范围。

物体在状态s受到的力就是在该状态势场的负梯度，即就是

基于传统人工势场法设计基于人工势场的评价器critic2，也就是设计一个基于人工势场的状态-动作值函数Q_PF(s,a)，如下式所示：

其中，χ是执行动作a后的方向和f(s)的夹角，如图3所示，s是当前状态。

其中，如图4所示，s′_a是在s时执行动作a(后)的状态，0<γ₂≤1是折扣系数。本实施例中，基于Actor-Critic-2的人工势场引导的深度确定性策略梯度：

Critic 1是基于环境奖励r(s_k,a_k)的，可由下式所示DDPG中原始的状态-动作值函数计算得到：

式中，γ₁为奖励折扣系数，γ₁的取值范围为0γ₁≤1。

DDPG是一种无模型的强化学习方法，基于环境反馈的奖励进行学习，不需要环境模型，但是样本利用率较低，收敛速度较慢。

Critic 2是基于人工势场的，由下式中本实施例设计人工势场的状态-动作值函数计算得到：

式中：γ₂为势场值的折扣系数，γ₂的取值范围为0＜γ₂≤1。

人工势场是一种基于模型的规划方法，计算效率高，但环境模型的精度影响算法的效果。

在一个具体方式中根据Actor-Critic-2的框架，结合Critic 1和Critic 2共同引导Actor策略网络的更新，可以结合基于模型的规划方法和无模型强化学习方法的两者的优势，使算法更快更稳定的收敛，本实施例使用Adam优化器进行优化。

根据公式(6)(7)结合强化学习中随机策略梯度损失函数的定义，双评价器单执行器方法的策略网络的损失函数可以表示为：

其中β为调节critic 1和critic 2的比例系数，β越大基于奖励的Critic 1占比就越大，强化学习对actor的引导作用就更强；β越小Critic 2占比就越大，人工势场规划的引导作用就更强。

在一个具体实施方式中比例系数β的设置方式包括：

1).β为固定值时，越接近目标过程人工势场的影响逐渐减小，由学习进行局部探索；

2).β随着训练轮次动态调整，促使总的动作值函数接近真实状态动作值函数。

由公式(8)可得策略网络梯度为：

Actor的策略网络参数可以表示为θ，Critic 1的值函数网络参数可以表示为w，Critic 2直接使用公式(4)(5)计算得到。策略网络和值函数网络相互迭代更新。

计算方式如下：

按下式进行策略网络参数更新：

为求θ的梯度；μ_θ为权重参数为θ的策略网络；s_t为t时刻的状态；α_t为t时刻执行的动作；β为双评价器的比例因子；

为求动作a的梯度；

为t时刻基于势场的状态动作值函数的梯度。

按下式进行值函数网络更新：

为基于奖励的状态动作值函数在值函数和策略权重参数分别为w′和θ′下t+1时刻状态的值；s_t+1为t+1时刻的状态；μ_θ′(s_t+1)为策略在权重参数θ′下t+1时刻的状态应执行的动作；

为对权重w求梯度；

为了使算法收敛更快更稳定，本实施例选择使用和DDPG一样的双网络延迟更新方式，分别设置目标值函数网络和目标策略网络为Q’和μ’通过软更新的方式更新目标网络参数：

θ′←τθ+(1-τ)θ′ (13)

w′←τw+(1-τ)w′ (14)

式中：θ′为目标策略网络权重；τ为目标网络软更新时的“温度系数”；θ为策略网络权重；w′为目标值函数网络权重；w为值函数网络权重。

基于上述提供的实施方式，本实施例对双评价器单执行器的强化学习方法进行具体的解释，包括：

步骤1、随机初始化critic1的值函数网络Q(s,a|w)和Actor的策略网络μ(s|θ)，权重表示为w和θ，设置双评价器的比例系数β；

步骤2、初始化目标网络Q’和μ’的权重为w′＝w和θ′＝θ；

步骤3、初始化经验回放缓存区R；

步骤4、初始化一个用于探索动作的噪声函数N()；

步骤5、初始化环境并得到一个初始状态s₁；

步骤6、根据当前状态S_t当前策略μ_t和探索噪声N_t计算动作：

a_t＝μ(s|θ)+N_t

步骤7、执行动作a_t观察奖励r_t和下一个状态s_t+1；

步骤8、储存经验(S_t,a_t,r_t,s_t+1)到缓冲区R；

步骤9、随机从缓冲区R中采样N个样本(S_i,a_i,r_i,s_i+1)；

步骤10、使用采样得到的N个样本，通过公式(11)(12)更新critic1的值函数网络Q(s,a|w)；

步骤11、使用采样得到的N个样本，通过公式(4)(5)计算critic2的人工势场值函数的值；

步骤12、使用采样得到的N个样本，通过公式(10)更新Actor的策略网络μ(s|θ)；

步骤13、通过公式(13)(14)更新目标网络；

步骤14、一幕结束或者达到一幕的最大步数数则执行步骤15，否则返回执行步骤6；

步骤15、达到最大幕数则训练结束，否则执行步骤4。

本实施例提出的双评价器单行动器的强化学习方法，解决了无模型强化学习中，存在的样本利用率不高、训练收敛速度慢的问题。使用双评价器的方式，不仅可以将有模型的规划(如：人工势场)和无模型的强化学习方法相结合，也可以直接结合多种强化学习方法。将有模型的规划和无模型的强化学习方法相结合，在加快算法收敛的同时提高了算法对新环境的泛化能力，对加快强化学习方法在实际中的应用有重要推动作用。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本发明的保护范围之内。

基于上述方案，本发明提供了本发明的技术方案涉及的一个实施例的应用场景，基于multiagent-particle-environments(MPE)环境的实验验证本技术方案的有效性，使用MPE中的“捕食者-猎物”模型，捕食者的坐标限定在[-1,1]，猎物的坐标限定在[-0.8,0.8]之间，捕食者和被捕食者有相同的速度。如图5和图6所示有两种情形，3v1和1v1，3v1的捕食者-被捕食者博弈的情形即如图5所示，地图中有3个捕食者追逐一个猎物，1v1的捕食者-被捕食者博弈的情形即如图6所示，地图中只有一个捕食者追逐一个猎物，其中，图中的三角形表示捕食者，圆形表示猎物。

首先考虑1v1的捕食者-被捕食者博弈的情形，环境奖励是稀疏的(如果成功奖励+10)，并且只取决于每一幕的终结状态；然后，考虑N个捕食者在一个随机生成的环境中追逐一个猎物，每一次如果所有捕食者同时捕获一个猎物，每个捕食者将获得10的奖励。只要任何捕食者没有抓住猎物，就不会给任何捕食者奖励。上述过程导致了一个学习困难的问题，需要良好的默契合作。

实验的目标是学习在不知道对手策略和行动的情况下独立捕获猎物。针对连续动作的控制问题，使用确定性策略梯度算法DDPG为基础(包含一个评价器Critic1)，增加自定义的人工势场评价器(Critic2)，使用Critic1和Critic2的梯度组合共同对Actor进行更新。在本实施例中把这个方法称为PGDDPG。

本实施例中的采用两种方式验证该技术方案的有效性，具体包括：

第一种方式，使用预训练的DDPG模型作为被捕食者策略

对于1v1和3v1的捕食者-被捕食者博弈，分别绘制了如图7、图8、图9和图10所示PGDDPG与DDPG的捕获成功率和捕食者奖励曲线。

为了展示更流畅的学习过程，如图7和图8所示计算了每500集的奖励值的均值。

显然，通过图7、图8、图9和图10可以看出PGDDPG在收敛速度方面优于DDPG。

第二种方式，捕食者和被捕食者一起进行训练

同时训练增加了学习的难度，因为它变成了零和游戏，同时环境得动态性增强。

如图11和图12所示，对于PGDDPG，在大约1000次时成功率从0.2下降到0(猎物的逃脱能力超过捕食者的捕获能力)；然而，很快捕获能力赶上了逃跑能力并占据了领先地位。

从图11和图12还可以观察到DDPG在3vs 1的捕食者-被捕食者零和博弈中失败。

其中图7-12中的横坐标episode表示训练集数，图7、图8和图11的纵坐标reward表示奖励，图9、图10和图12的纵坐标ration of success表示限定成功的量。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种存储装置。在根据本发明的一个存储装置实施例中，存储装置可以被配置成存储执行上述方法实施例的双评价器单执行器的强化学习方法的程序，该程序可以由处理器加载并运行以实现上述双评价器单执行器的强化学习方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该存储装置可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中存储是非暂时性的计算机可读存储介质。

进一步，本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中，控制装置包括处理器和存储装置，存储装置可以被配置成存储执行上述方法实施例的双评价器单执行器的强化学习方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的双评价器单执行器的强化学习方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种双评价器单执行器的强化学习方法，其特征在于，包括：

S2根据初始化噪声函数在初始化环境中得到一个状态；

2.如权利要求1所述的强化学习方法，其特征在于，所述S1初始化双评价器单执行器中的参数，并设置策略网络的损失函数中各评价器的比例系数，包括：

S102初始化目标网络的权重；

S103初始化经验回放缓存区；

S104设置策略网络的损失函数中各评价器的比例系数。

3.如权利要求1所述的强化学习方法，其特征在于，所述策略网络的损失函数，如下式所示：

为状态空间；ρ^μ(s，γ₁)为在折扣γ₁下的状态分布；s为当前状态；γ₁为奖励折扣系数；μ_θ(s)为策略函数；r(s，μ_θ(s))为在状态s时采取策略μ_θ能获得的奖励；β为双评价器的比例系数；ρ^μ(s，γ₂)为在折扣γ₂下的状态分布；γ₂为势场值的折扣系数；q_PF(s，μ_θ(s))为在状态s执行策略μ_θ时基于势场的状态-动作函数。

4.如权利要求1所述的强化学习方法，其特征在于，根据当前状态、当前策略和噪声函数按下式计算动作：

a_t＝μ(s|θ)+N_t

5.如权利要求1所述的强化学习方法，其特征在于，所述S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数，包括：

S404根据策略网络参数θ和策略网络μ更新目标网络。

6.如权利要求5所述的强化学习方法，其特征在于，所述人工势场的状态-动作值函数，如下式所示：

式中：Q_PF(s，a)为人工势场的状态-动作值函数；s是当前状态；a为动作；U(s)为状态s下的势场值；γ₂为势场值的折扣系数；s′_a为状态s下执行动作a后的状态；U(s′_a)为状态s下执行动作a后的状态的势场值；E为求均值；k为当前步数；q_PF(s_k，a_k)为在状态s_k执行策略μ_θ时基于势场的状态-动作函数；

其中，所述q_PF(s_k，a_k)，按下式计算：